機器學習基礎知識

1.常見的六種特徵選擇方法: 1)DF(Document Frequency) 文檔頻率 DF:統計特徵詞出現的文檔數量,用來衡量某個特徵詞的重要性 2)MI(Mutual Information) 互信息法 互信息法用於衡量特徵詞與文檔類別直接的信息量。 如果某個特徵詞的頻率很低,那麼互信息得分就會很大,因此互信息法傾向"低頻"的特徵詞。 相對的詞頻很高的詞,得分就會變低,如果這詞攜帶了很高的信
相關文章
相關標籤/搜索