天然語言處理研究使用計算機編程來處理與理解人類語言。應用場景機器翻譯、情感分析、文本處理、聊天機器人。通用技術1.分詞將連續文本分割成若干詞彙2.停用詞過濾拿一個句子來講:主謂賓、定狀補。通過停用詞過濾之後就只剩下---主謂賓。詞幹提取和詞形還原主要應用在英文等西方語言中。3.詞幹提取是指對一個單詞去掉後綴,還原爲詞自己。4.詞形還原是指同一單詞不一樣形式的識別,將單詞還原爲標準形式。5.詞袋模型用來將文本轉換成數值向量的表示形式。方式爲將每一個文檔構建一個特徵向量,其中包含每一個單詞在文檔中出現的次數。6.TF-IDFTF-IDF=TF(詞頻)*IDF(逆文檔頻率)TF(Term Frequency):詞頻統計,對文章中詞語出現的頻率進行計數統計。 $TF=\frac{當前文檔中單詞出現的次數}{當前文檔中包含的單詞總數}$ 大衆詞出現的次數多,也不該該認爲是重要的,由於在其它文檔中出現的次數也多。爲了更好的衡量大衆詞的價值,可用IDF來解決。IDF(Inverse Document Frequency):逆文檔頻率,指的是語料庫中文檔總數與語料庫中包含該詞的文檔數,兩者比值的對數(log)。 $IDF=log\left ( \frac{語料庫中文檔總數}{語料庫中包含該詞的文檔數+1} \right )$ 舉個例子: 昨夜 星辰 昨夜風 小馬過河 昨夜房上看月亮 明天又是另一天了 "昨夜"在第一個文檔中出現了2次,第一個文檔總共包含4個詞,總共存在4個文檔,故 $TF=\frac{2}{4}$ , $IDF=log\left ( \frac{4}{2+1} \right )$ "昨夜"的TF-IDF值爲:$0.5\times log\left ( 4/3 \right )$ 7.Word2VecWord2Vec:Word2Vec是Google在2013年提出的一個開源算法,使用神經網絡技術,能夠將詞表轉化爲向量表示。確切的說,就是將詞映射爲n維空間向量,特徵維度n視具體的狀況與需求而定。 計算文本類似度:可先將詞條轉化成向量,從而根據餘弦類似度來計算文本之間的類似性。 |