特徵選擇之TF-IDF

TF-IDF,最開始用於信息檢索,在信息檢索中其計算過程以下html

TF-IDF模型的主要思想是:若是詞w在一篇文檔d中出現的頻率高,而且在其餘文檔中不多出現,則認爲詞w具備很好的區分能力,適合用來把文章d和其餘文章區分開來。該模型主要包含了兩個因素:TF,IDF算法

詞頻TF(Term Frequency)htm

詞w在文檔d中出現次數count(w, d)和文檔d中總詞數size(d)的比值:blog

TFip

逆向文檔頻率IDF(Inverse Document Frequency)文檔

文檔總數n與詞w所出現文件數docs(w, D)比值的對數:方法

 

IDFim

加1是爲了防止分母爲0的狀況img

TF-IDF語言

TF-IDF

TF-IDF= TF * IDF  =(詞頻*詞權)

TF-IDF與一個詞在文檔中的出現次數成正比,與該詞在整個語言中的出現次數成反比。因此,自動提取關鍵詞的算法就很清楚了,就是計算出文檔的每一個詞的TF-IDF值,而後按降序排列,取排在最前面的幾個詞。

一句話或者一個文檔的TF-IDF:各個詞組的TF-IDF的和

其餘計算TF 、IDF的方式

 

 

TF-IDF的權值

TF-IDF算法的優勢是簡單快速,結果比較符合實際狀況。缺點是,單純以"詞頻"衡量一個詞的重要性,不夠全面,有時重要的詞可能出現次數並很少。並且,這種算法沒法體現詞的位置信息,出現位置靠前的詞與出現位置靠後的詞,都被視爲重要性相同,這是不正確的。(一種解決方法是,對全文的第一段和每一段的第一句話,給予較大的權重。)

可是可是,咱們這裏利用TFIDF做爲特徵選擇,上面的好像只是計算了一個詞和文檔的相識度的過程,如何將上面的過程轉換成特徵選擇?

只須要將上面的文檔換成某一類,就能理解一大半了。

某綜述中看到下面的方法用於特徵選擇

 

 

參考1:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

參考2:https://en.wikipedia.org/wiki/Tf%E2%80%93idf

相關文章
相關標籤/搜索