NLP天然語言處理

時間 2019-11-17

標籤 nlp 天然語言處理简体版

原文原文鏈接

天然語言處理

研究使用計算機編程來處理與理解人類語言。

應用場景

機器翻譯、情感分析、文本處理、聊天機器人。

通用技術

1.分詞

將連續文本分割成若干詞彙

2.停用詞過濾

拿一個句子來講：主謂賓、定狀補。通過停用詞過濾之後就只剩下---主謂賓。

詞幹提取和詞形還原主要應用在英文等西方語言中。

3.詞幹提取

是指對一個單詞去掉後綴，還原爲詞自己。

4.詞形還原

是指同一單詞不一樣形式的識別，將單詞還原爲標準形式。

5.詞袋模型

用來將文本轉換成數值向量的表示形式。方式爲將每一個文檔構建一個特徵向量，其中包含每一個單詞在文檔中出現的次數。

6.TF-IDF

TF-IDF=TF(詞頻)*IDF(逆文檔頻率)
TF(Term Frequency):詞頻統計，對文章中詞語出現的頻率進行計數統計。
$TF=\frac{當前文檔中單詞出現的次數}{當前文檔中包含的單詞總數}$

大衆詞出現的次數多，也不該該認爲是重要的，由於在其它文檔中出現的次數也多。爲了更好的衡量大衆詞的價值，可用IDF來解決。

IDF(Inverse Document Frequency):逆文檔頻率，指的是語料庫中文檔總數與語料庫中包含該詞的文檔數，兩者比值的對數（log）。
$IDF=log\left ( \frac{語料庫中文檔總數}{語料庫中包含該詞的文檔數+1} \right )$
舉個例子：
昨夜星辰昨夜風
小馬過河
昨夜房上看月亮
明天又是另一天了
"昨夜"在第一個文檔中出現了2次，第一個文檔總共包含4個詞，總共存在4個文檔，故 $TF=\frac{2}{4}$ , $IDF=log\left ( \frac{4}{2+1} \right )$
"昨夜"的TF-IDF值爲：$0.5\times log\left ( 4/3 \right )$

7.Word2Vec

Word2Vec:Word2Vec是Google在2013年提出的一個開源算法，使用神經網絡技術，能夠將詞表轉化爲向量表示。確切的說，就是將詞映射爲n維空間向量，特徵維度n視具體的狀況與需求而定。計算文本類似度：可先將詞條轉化成向量，從而根據餘弦類似度來計算文本之間的類似性。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。