NLP天然語言處理

天然語言處理

  研究使用計算機編程來處理與理解人類語言。

應用場景

  機器翻譯、情感分析、文本處理、聊天機器人。

通用技術

1.分詞

  將連續文本分割成若干詞彙

2.停用詞過濾

  拿一個句子來講:主謂賓、定狀補。通過停用詞過濾之後就只剩下---主謂賓。

  詞幹提取和詞形還原主要應用在英文等西方語言中。

3.詞幹提取

  是指對一個單詞去掉後綴,還原爲詞自己。

4.詞形還原

  是指同一單詞不一樣形式的識別,將單詞還原爲標準形式。

5.詞袋模型

  用來將文本轉換成數值向量的表示形式。方式爲將每一個文檔構建一個特徵向量,其中包含每一個單詞在文檔中出現的次數。

6.TF-IDF

  TF-IDF=TF(詞頻)*IDF(逆文檔頻率)
  TF(Term Frequency):詞頻統計,對文章中詞語出現的頻率進行計數統計。
  $TF=\frac{當前文檔中單詞出現的次數}{當前文檔中包含的單詞總數}$

  大衆詞出現的次數多,也不該該認爲是重要的,由於在其它文檔中出現的次數也多。爲了更好的衡量大衆詞的價值,可用IDF來解決。


  IDF(Inverse Document Frequency):逆文檔頻率,指的是語料庫中文檔總數與語料庫中包含該詞的文檔數,兩者比值的對數(log)。
  $IDF=log\left ( \frac{語料庫中文檔總數}{語料庫中包含該詞的文檔數+1} \right )$
舉個例子:
  昨夜 星辰 昨夜
  小馬過河
  昨夜房上看月亮
  明天又是另一天了
  "昨夜"在第一個文檔中出現了2次,第一個文檔總共包含4個詞,總共存在4個文檔,故 $TF=\frac{2}{4}$ , $IDF=log\left ( \frac{4}{2+1} \right )$
  "昨夜"的TF-IDF值爲:$0.5\times log\left ( 4/3 \right )$

7.Word2Vec

  Word2Vec:Word2Vec是Google在2013年提出的一個開源算法,使用神經網絡技術,能夠將詞表轉化爲向量表示。確切的說,就是將詞映射爲n維空間向量,特徵維度n視具體的狀況與需求而定。   計算文本類似度:可先將詞條轉化成向量,從而根據餘弦類似度來計算文本之間的類似性。
相關文章
相關標籤/搜索