文本相似度度量

文本相似度度量就是衡量兩個文本相似度的算法。主要包括兩個步驟:將文本表示爲向量(文本表示);衡量兩個向量的相似度(相似度度量)。 1 文本表示 文本表示也包括兩部分:文本切分粒度(按什麼粒度切分得到文本特徵),如何構造特徵(如何將文本特徵轉化成數值特徵)。 1.1 文本切分粒度 可以按照字,詞,n-gram對文本進行切分;當文本是長文本時,也可以利用主題模型提取關鍵詞,來減少詞的維度。 1.2 文
相關文章
相關標籤/搜索