特徵選擇方法之TF-IDF、DF

    TF_IDF, DF都是經過簡單的統計來選擇特徵,所以把它們放在一塊介紹 算法     一、TF-IDF性能     單詞權重最爲有效的實現方法就是TF*IDF, 它是由Salton在1988 年提出的。其中TF 稱爲詞頻, 用於計算該詞描述文檔內容的能力; IDF 稱爲反文檔頻率, 用於計算該詞區分文檔的能力。TF*IDF 的指導思想創建在這樣一條基本假設之上: 在一個文本中出現不少次的
相關文章
相關標籤/搜索