文本相似度算法

因爲輿情監測這邊涉及到一些文本相似度的判斷,實現把一類新聞的分類到同一個主新聞下。有點類似baidu相似新聞的搞法。所有抽時間看了些簡單的文本相似度算法。 下面是之前看的萊文斯坦距離算法。大家可以bing一下理論,這裏直接上code。 def levenshtein_distance(first, second): if len(first) == 0 or len(second) ==
相關文章
相關標籤/搜索