文本挖掘學習(三) 關鍵詞提取、TF-IDF

1.TF-IDF算法 基本思想:python 若是一個詞在一篇文檔中出現的頻率高,而且在語料庫中其餘文檔中不多出現,則認爲這個詞有很好的類別區分功能 詞頻TF:Term Frequency,衡量一個term在文檔中出現的有多頻繁算法 平均而言出現越頻繁的詞,其重要性可能就越高 考慮到文章長度的差別,須要對詞頻作標準化code TF(t) = (t出如今文檔中的次數) / (文檔中term總數) T
相關文章
相關標籤/搜索