天然語言處理工具中的中文分詞器介紹

時間 2019-11-06

標籤天然語言處理工具中文分詞器介紹简体版

原文原文鏈接

中文分詞是中文文本處理的一個基礎步驟，也是中文人機天然語言交互的基礎模塊，不一樣於英文的是，中文句子中沒有詞的界限，所以在進行中文天然語言處理時，一般須要先進行分詞，分詞效果將直接影響詞性，句法樹等模塊的效果，固然分詞只是一個工具，場景不一樣，要求也不一樣。在人機天然語言交互中，成熟的中文分詞算法可以達到更好的天然語言處理效果，幫助計算機理解複雜的中文語言。算法

基於詞典分詞算法網絡

基於詞典分詞算法，也稱爲字符串匹配分詞算法。該算法是按照必定的策略將待匹配的字符串和一個已經創建好的"充分大的"詞典中的詞進行匹配，若找到某個詞條，則說明匹配成功，識別了該詞。常見的基於詞典的分詞算法爲一下幾種：正向最大匹配算法，逆向最大匹配法，最少切分法和雙向匹配分詞法等。框架

基於詞典的分詞算法是應用最普遍，分詞速度最快的，很長一段時間內研究者在對對基於字符串匹配方法進行優化，好比最大長度設定，字符串存儲和查找方法以及對於詞表的組織結構，好比採用TRIE索引樹，哈希索引等。機器學習

這類算法的優勢：速度快，都是O(n)的時間複雜度，實現簡單，效果尚可，工具

算法的缺點：對歧義和未登陸的詞處理很差。性能

基於理解的分詞方法學習

這種分詞方法是經過讓計算機模擬人對句子的理解，達到識別詞的效果，其基本思想就是在分詞的同時進行句法、語義分析，利用句法信息和語義信息來處理歧義現象，它一般包含三個部分：分詞系統，句法語義子系統，總控部分，在總控部分的協調下，分詞系統能夠得到有關詞，句子等的句法和語義信息來對分詞歧義進行判斷，它模擬來人對句子的理解過程，這種分詞方法須要大量的語言知識和信息，因爲漢語言知識的籠統、複雜性，難以將各類語言信息組成及其能夠直接讀取的形式，所以目前基於理解的分詞系統還在試驗階段。優化

基於統計的機器學習算法搜索引擎

這類目前經常使用的算法是HMM，CRF，SVM，深度學習等算法，好比stanford，Hanlp分詞工具是基於CRF算法。以CRF爲例，基本思路是對漢字進行標註訓練，不只考慮了詞語出現的頻率，還考慮上下文，具有良好的學習能力，所以對歧義詞和未登陸詞的識別都具備良好的效果。spa

Nianwen Xue在其論文中《Combining Classifier for Chinese Word Segmentation》中首次提出對每一個字符進行標註，經過機器學習算法訓練分類器進行分詞，在論文《Chinese word segmentation as character tagging》中較爲詳細地闡述了基於字標註的分詞法。

算法優勢：能很好處理歧義和未登陸詞問題，效果比前一類效果好

算法缺點: 須要大量的人工標註數據，以及較慢的分詞速度

現行常見的中文詞分類器

常見的分詞器都是使用機器學習算法和詞典相結合的算法，一方面可以提升分詞準確率，另外一方面可以改善領域適應性。

隨着深度學習的興起，也出現了基於神經網絡的分詞器，例若有研究人員嘗試使用雙向LSTM＋CRF實現分詞器，其本質上是序列標註，因此有通用性，命名實體識別等均可以使用該模型，據報道其分詞器字符準確率能夠高達97.5%,算法框架的思路與論文《Neural Architectures for Named Entity Recogintion》相似，利用該框架能夠實現中文分詞，以下圖所示