概論
使用模式匹配技術,一個輸入模式對應着一個或多個輸出模式。
例如模式
I remember * -> why do you remember *
優勢是對輸入句子的限制較小,但分析每每會不精準,沒有真正考慮語義
讓我想起了小黃雞
在限定情景中的天然語言處理,好比書中給出的語音控制機器手臂操做玩具積木
我對這塊沒有太多想法,最討厭語義分析了。
1.基於規則和基於統計的研究方法的結合
這個好理解,人工經驗和數據分析的結合,不僅僅是天然語言處理,不少方向的發展都有這個趨勢
2.天然語言理解在語義網中普遍應用
3.與生物信息學的結合
2和3表示不懂,略過
自動分詞
中文分詞是開發文本挖掘的核心技術,以支持對文本信息進行管理、分析、
檢索等各類應用。其主要難點是分詞歧義以及未登陸詞的召回問題。
主要的切詞方法以下:
由於較多的分詞歧義都是過段結束匹配形成的,因此逆向匹配準確率每每比正向高。
- 根據匹配長度的優先級不一樣能夠分爲 最長匹配和最短匹配
同理,最長匹配的準確率比最短匹配高
聽說經過雙向最大匹配能夠進一步提高準確率,可能仍是由於上面的緣由
這種方法將分詞問題歸結爲圖論中的最短路徑問題,即一個詞對應一條有向邊,
詞的一個序列對應一條有向路徑。對給定的待分詞的漢字串S,分詞問題就是要找到一條最短的有向路徑
使得這條路徑上的邊所對應的詞的序列爲S。這樣就可用圖論中的有關算法來求解。
路徑最短意味着切分後詞的數量最少。這種方法頗有新意,但我不太理解爲何分的越少越好。
書上說符合漢語自身的規律。
基於預料統計的分詞方法
- 能夠對語料中相鄰共現的各個字的組合的頻率進行統計,計算他們的互現信息。計算兩個漢字X,Y相鄰的共現機率,當大於某一閾值時,即可認爲構成一個詞。這種方法其實就至關於從語料庫裏構建詞庫。
- 也能夠根據語料計算各類分詞結果的機率,取最大的
參考《中文文本信息處理的原理與應用》,苗奪謙