局部敏感哈希算法

私認爲,文本的相似性可以分爲兩類:一類是機械相似性;一類是語義相似性。       機械相似性代表着,兩個文本內容上的相關程度,比如「你好嗎」和「你好」的相似性,純粹代表着內容上字符是否完全共現,應用場景在:文章去重;       語義相似性代表着,兩個文本語義上的相似程度,比如「蘋果」和「公司」的相似性,本篇不做這一討論,可參考筆者的另外一篇博客:  NLP︱句子級、詞語級以及句子-詞語之間相似
相關文章
相關標籤/搜索