天然語言處理----計算文檔中詞語權重

    天然語言處理(NLP)中的不少問題,都須要給文檔中的詞語一個定量化的權重值,進而能夠完後詞語重要性的排序,類似度的計算,相關性的排序,等等。本文就目前流行的權重計算方案進行了一個列舉。api

    1. TF-IDFblog

        wij=log(fij) x log(N/nj)排序

    wij是詞語j在文檔i中的權重, fij是詞語j在文檔i中出現的頻率(TF), N是全部的文檔數,文章後面含義同此。文檔

    主要思想:若是一個詞語在一篇文章中出現的頻率TF高,而且在其餘文檔中不多出現,則認爲此詞語具備很好的區分能力。對區分文檔最有意義的詞語應該是那些在文檔中出現頻率高而在整個文檔集合中出現頻率低的詞語。考慮到每一個詞語區分不一樣類別的能力,TF-IDF認爲一個詞語出現的文檔頻率越小,它區分不一樣類別文檔的能力就越大。基礎

    2. MI (互信息)im

     

   這裏的N是全部文檔中全部詞語頻率的和,而不是文檔數。上面公式中,分子表示的是詞語j在文檔i中出現的機率;分母的前一項詞語j在全部文檔出現的機率,後一項是文檔i出現的機率。d3

   互信息的意義:db

   在某個特定文檔出現頻率高,但在其餘文檔出現頻率比較低的詞語與該文檔的互信息比較大。一般用互信息做爲特徵詞語和文檔之間的相關度測量,若是特徵詞屬於該文檔,則他們的互信息量最大。img

    3. ATC語言

    

 

    4. Okapi

    

 

    5. LTU

    

    nj是詞語j至少出現過一次的文檔, nj/N 是詞語j的文檔頻率(DF), 那麼N/nj 就是逆向文檔頻率(IDF), max_f是詞語在全部文檔中的最大頻率, dl是文檔長度,avg_dl是全部文檔的平均長度。

    這三種權重方案都是TF-IDF的變種,是在其的基礎上引入了其餘的因素。ATC 引入了全部文檔中的詞語的最大頻率,同時使用了歐幾里德距離做爲文檔長度歸一化考慮。Okapi和LTU使用了相似的方式

來考慮文檔長度(文檔越長,那麼相對來講,詞語的頻率也就越高,爲了平衡,須要對長文檔作出必定的懲罰,但又不能懲罰太厲害,因此引入了dl/avg_dl),但他們採用不一樣的方式來處理詞語的頻率。

LTU使用的是log(fij),而Okapi使用的是fij/(fij+2).

    通常這幾種方案沒有絕對的優劣之分,根據具體狀況選擇合適的方案便可。

相關文章
相關標籤/搜索