天然語言處理
機器翻譯,搜索,分詞,語音識別,手寫輸入。搜索引擎
規則樹
基於語法規則實現nlp,複雜,低效,沒法實現複雜語句的識別。翻譯
統計
基於統計實現nlp,使用數學模型(公式,參數),計算出各類狀況出現的機率,使用機率最高的。排序
模型訓練
收集海量數據(語料庫),計算二元,三元,四元,N元詞組的出現頻率。
分詞則計算不一樣分詞出現的機率。索引
機器翻譯
英譯中
將單個詞進行翻譯,而後計算單個詞按不一樣的順序組成句子的機率,使用大機率的句子做爲結果。詞順序的機率,由訓練模型算出。數學
中譯英
則先分詞,再翻譯各個單詞,而後組合句子。分詞的實現使用隱含馬爾可夫模型,計算各類分詞的機率,使用大機率。it
分詞
基於詞典(詞庫),按詞典中定義的詞分詞。對未登陸的詞只能單個字成詞。
基於隱含馬爾可夫模型(基於機率,統計),基於字,計算字組成各類詞的機率。登錄
英語分詞
分詞通常用於漢語等亞洲語言,英語用空格,標點符號,stop word分詞便可。但對於手寫輸入英語,或掃描手寫時,因爲空格不明顯,須要像漢語同樣分詞,方法同樣。搜索
詞的狀態
{B|begin,M|middle,E|end,S|single}:開始,中間,結束,獨立字成詞。
初始狀態分佈π示例:prob_start
P={'B': -0.26268660809250016,
'E': -3.14e+100,
'M': -3.14e+100,
'S': -1.4652633398537678}
轉移機率矩陣:prob_trans
P={'B': {'E': -0.510825623765990, 'M': -0.916290731874155},
'E': {'B': -0.5897149736854513, 'S': -0.8085250474669937},
'M': {'E': -0.33344856811948514, 'M': -1.2603623820268226},
'S': {'B': -0.7211965654669841, 'S': -0.6658631448798212}}
發射矩陣:prob_emit
P(「和」|M):M狀態下出現」和「字的機率。
P={'B': {'一': -3.6544978750449433,
'丁': -8.125041941842026,
'七': -7.817392401429855,
...}
'S': {':': -15.828865681131282,
'一': -4.92368982120877,
...}
...}語法
搜索引擎排序
TF-IDF,該網頁被其餘網頁引用的數量。引用