中文分詞是中文文本處理的一個基礎步驟,也是中文人機天然語言交互的基礎模塊,不一樣於英文的是,中文句子中沒有詞的界限,所以在進行中文天然語言處理時,一般須要先進行分詞,分詞效果將直接影響詞性,句法樹等模塊的效果,固然分詞只是一個工具,場景不一樣,要求也不一樣。在人機天然語言交互中,成熟的中文分詞算法可以達到更好的天然語言處理效果,幫助計算機理解複雜的中文語言。算法
基於詞典分詞算法網絡
基於詞典分詞算法,也稱爲字符串匹配分詞算法。該算法是按照必定的策略將待匹配的字符串和一個已經創建好的"充分大的"詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞算法爲一下幾種:正向最大匹配算法,逆向最大匹配法,最少切分法和雙向匹配分詞法等。框架
基於詞典的分詞算法是應用最普遍,分詞速度最快的,很長一段時間內研究者在對對基於字符串匹配方法進行優化,好比最大長度設定,字符串存儲和查找方法以及對於詞表的組織結構,好比採用TRIE索引樹,哈希索引等。機器學習
這類算法的優勢:速度快,都是O(n)的時間複雜度,實現簡單,效果尚可,工具
算法的缺點:對歧義和未登陸的詞處理很差。性能
基於理解的分詞方法學習
這種分詞方法是經過讓計算機模擬人對句子的理解,達到識別詞的效果,其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象,它一般包含三個部分:分詞系統,句法語義子系統,總控部分,在總控部分的協調下,分詞系統能夠得到有關詞,句子等的句法和語義信息來對分詞歧義進行判斷,它模擬來人對句子的理解過程,這種分詞方法須要大量的語言知識和信息,因爲漢語言知識的籠統、複雜性,難以將各類語言信息組成及其能夠直接讀取的形式,所以目前基於理解的分詞系統還在試驗階段。優化
基於統計的機器學習算法搜索引擎
這類目前經常使用的算法是HMM,CRF,SVM,深度學習等算法,好比stanford,Hanlp分詞工具是基於CRF算法。以CRF爲例,基本思路是對漢字進行標註訓練,不只考慮了詞語出現的頻率,還考慮上下文,具有良好的學習能力,所以對歧義詞和未登陸詞的識別都具備良好的效果。spa
Nianwen Xue在其論文中《Combining Classifier for Chinese Word Segmentation》中首次提出對每一個字符進行標註,經過機器學習算法訓練分類器進行分詞,在論文《Chinese word segmentation as character tagging》中較爲詳細地闡述了基於字標註的分詞法。
算法優勢:能很好處理歧義和未登陸詞問題,效果比前一類效果好
算法缺點: 須要大量的人工標註數據,以及較慢的分詞速度
現行常見的中文詞分類器
常見的分詞器都是使用機器學習算法和詞典相結合的算法,一方面可以提升分詞準確率,另外一方面可以改善領域適應性。
隨着深度學習的興起,也出現了基於神經網絡的分詞器,例若有研究人員嘗試使用雙向LSTM+CRF實現分詞器,其本質上是序列標註,因此有通用性,命名實體識別等均可以使用該模型,據報道其分詞器字符準確率能夠高達97.5%,算法框架的思路與論文《Neural Architectures for Named Entity Recogintion》相似,利用該框架能夠實現中文分詞,以下圖所示
首先對語料進行字符嵌入,將獲得的特徵輸入給雙向的LSTM,而後加一個CRF就獲得標註結果。
分詞器當前存在問題
目前中文分詞難點主要有三個:
1. 分詞標準:好比人名,在哈工大的標準中姓和名是分開的,可是在Hanlp中是合在一塊兒的,這須要根據不一樣的需求制定不一樣的分詞標準。
2. 歧義:對於同一個待切分字符串存在多個分詞結果。
歧義又分爲組合歧義,交集型歧義和真歧義三種分類。
1)組合型歧義:分詞是有不一樣的粒度的,指某個詞條中的一部分也能夠切分未一個獨立的詞條,好比「中華人民共和國」,粗粒度的分詞就是「中華人民共和國」,細粒度的分詞多是「中華/人民/共和國」
2)交集型歧義:在「鄭州天和服裝廠」中,「天和」是廠名,是一個專有名詞,「和服」也是一個詞,它們共用了「和」字
3)真歧義:自己的語法和語義都沒有問題,即使採用人工切分也會產生一樣的歧義,只有經過上下文的語義環境才能給出正確的切分結果,例如:對於句子「美國會經過對臺售武法案」,既能夠切分紅「美國/會/經過...」也能夠切分紅「美/國會/經過...」
通常在搜索引擎中,構建索引時和查詢時會使用不一樣的分詞算法,經常使用的方案是,在索引的時候,使用細粒度的分詞以保證召回,在查詢的時候使用粗粒度的分詞以保證精度。
3. 新詞:也稱未被詞典收錄的詞,該問題的解決依賴於人們對分詞技術和漢語語言結構進一步認識。
部分分詞器的簡單說明:
哈工大的分詞器:主頁上給過調用接口,每秒請求的次數有限制。
清華大學THULAC:目前已經有Java、Python和C++版本,而且代碼開源。
斯坦福分詞器:做爲衆多斯坦福天然語言處理中的一個包,目前最新版本3.7.0, Java實現的CRF算法。能夠直接使用訓練好的模型,也提供訓練模型接口。
Hanlp分詞:求解的是最短路徑。優勢:開源、有人維護、能夠解答。原始模型用的訓練語料是人民日報的語料,固然若是你有足夠的語料也能夠本身訓練。
結巴分詞工具:基於前綴詞典實現高效的詞圖掃描,生成句子中漢字全部可能成詞狀況所構成的有向無環圖 (DAG);採用了動態規劃查找最大機率路徑, 找出基於詞頻的最大切分組合;對於未登陸詞,採用了基於漢字成詞能力的 HMM 模型,使用了 Viterbi 算法。
字嵌入+Bi-LSTM+CRF分詞器:本質上是序列標註,這個分詞器用人民日報的80萬語料,聽說按照字符正確率評估標準能達到97.5%的準確率,各位感興趣能夠去看看。
ZPar分詞器:新加坡科技設計大學開發的中文分詞器,包括分詞、詞性標註和Parser,支持多語言,聽說效果是公開的分詞器中最好的,C++語言編寫。
關於速度
因爲分詞是基礎組件,其性能也是關鍵的考量因素。一般,分詞速度跟系統的軟硬件環境有相關外,還與詞典的結構設計和算法複雜度相關。好比咱們以前跑過字嵌入+Bi-LSTM+CRF分詞器,其速度相對較慢。
做者:lovive