中文文本信息處理的原理與應用讀書筆記1

概論
天然語言理解的發展歷史主要分爲三個階段
  • 以關鍵詞匹配爲主流的早期歷史
使用模式匹配技術,一個輸入模式對應着一個或多個輸出模式。
例如模式
I remember * -> why do you remember *
優勢是對輸入句子的限制較小,但分析每每會不精準,沒有真正考慮語義
讓我想起了小黃雞
  • 以句法-語義分析爲主流的中期歷史
          在限定情景中的天然語言處理,好比書中給出的語音控制機器手臂操做玩具積木
          我對這塊沒有太多想法,最討厭語義分析了。
  • 以周向實用化和工程化爲特徵的近期歷史
將來的發展趨勢主要以下:
1.基於規則和基於統計的研究方法的結合
這個好理解,人工經驗和數據分析的結合,不僅僅是天然語言處理,不少方向的發展都有這個趨勢
2.天然語言理解在語義網中普遍應用
3.與生物信息學的結合
2和3表示不懂,略過
 
自動分詞
中文分詞是開發文本挖掘的核心技術,以支持對文本信息進行管理、分析、
檢索等各類應用。其主要難點是分詞歧義以及未登陸詞的召回問題。
 
主要的切詞方法以下:
基於多字符串匹配的分詞方法
  • 根據匹配方向的不一樣能夠分爲 正向匹配與逆向匹配
由於較多的分詞歧義都是過段結束匹配形成的,因此逆向匹配準確率每每比正向高。
  • 根據匹配長度的優先級不一樣能夠分爲 最長匹配和最短匹配
同理,最長匹配的準確率比最短匹配高
  • 雙向最大匹配法
聽說經過雙向最大匹配能夠進一步提高準確率,可能仍是由於上面的緣由
  • 最短路徑法
這種方法將分詞問題歸結爲圖論中的最短路徑問題,即一個詞對應一條有向邊,
詞的一個序列對應一條有向路徑。對給定的待分詞的漢字串S,分詞問題就是要找到一條最短的有向路徑
使得這條路徑上的邊所對應的詞的序列爲S。這樣就可用圖論中的有關算法來求解。
路徑最短意味着切分後詞的數量最少。這種方法頗有新意,但我不太理解爲何分的越少越好。
書上說符合漢語自身的規律。

基於預料統計的分詞方法
  • 能夠對語料中相鄰共現的各個字的組合的頻率進行統計,計算他們的互現信息。計算兩個漢字X,Y相鄰的共現機率,當大於某一閾值時,即可認爲構成一個詞。這種方法其實就至關於從語料庫裏構建詞庫。
  • 也能夠根據語料計算各類分詞結果的機率,取最大的
 
參考《中文文本信息處理的原理與應用》,苗奪謙
相關文章
相關標籤/搜索