分詞(轉)

TFIDF算法獲取關鍵詞 「詞頻」(TF)和"逆文檔頻率"(IDF),將這兩個值相乘,就得到了一個詞的TF-IDF值。某個詞對文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的幾個詞,就是這篇文章的關鍵詞。 TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現的頻率TF高,並且在其他文章中很少出現,則認爲此詞或者短語具有很好的類別區分能力,適合用來分類。 IDF(Inverse D
相關文章
相關標籤/搜索