Hanlp中使用純JAVA實現CRF分詞

時間 2019-11-12

標籤 hanlp 使用 java 實現 crf 分詞欄目 Java 简体版

原文原文鏈接

Hanlp中使用純JAVA實現CRF分詞算法

與基於隱馬爾可夫模型的最短路徑分詞、N-最短路徑分詞相比，基於條件隨機場（CRF）的分詞對未登陸詞有更好的支持。本文（HanLP）使用純Java實現CRF模型的讀取與維特比後向解碼，內部特徵函數採用雙數組Trie樹(DoubleArrayTrie)儲存，獲得了一個高性能的中文分詞器。數組

開源項目函數

本文代碼已集成到HanLP中開源：http://hanlp.com/性能

CRF簡介spa

CRF是序列標註場景中經常使用的模型，比HMM能利用更多的特徵，比MEMM更能抵抗標記偏置的問題。blog

CRF訓練get

這類耗時的任務，仍是交給了用C++實現的CRF++。關於CRF++輸出的CRF模型，請參考《CRF++模型格式說明》。博客

CRF解碼table

解碼採用維特比算法實現。而且稍有改進，用中文僞碼與白話描述以下：模板

首先任何字的標籤不只取決於它本身的參數，還取決於前一個字的標籤。可是第一個字前面並無字，何來標籤？因此第一個字的處理稍有不一樣，假設第0個字的標籤爲X，遍歷X計算第一個字的標籤，取分數最大的那一個。

如何計算一個字的某個標籤的分數呢？某個字根據CRF模型提供的模板生成了一系列特徵函數，這些函數的輸出值乘以該函數的權值最後求和得出了一個分數。該分數只是「點函數」的得分，還需加上「邊函數」的得分。邊函數在本分詞模型中簡化爲f(s',s)，其中s'爲前一個字的標籤，s爲當前字的標籤。因而該邊函數就能夠用一個4*4的矩陣描述，至關於HMM中的轉移機率。

實現了評分函數後，從第二字開始便可運用維特比後向解碼，爲全部字打上BEMS標籤。

實例

仍是取經典的「商品和服務」爲例，首先HanLP的CRFSegment分詞器將其拆分爲一張表：

null表示分詞器尚未對該字標註。

代碼

上面說了這麼多，其實個人實現很是簡練：

標註結果

標註後將table打印出來：

最終處理

將BEMS該合併的合併，獲得：

而後將詞語送到詞典中查詢一下，沒查到的暫時看成nx，並記下位置（由於這是個新詞，爲了表示它的特殊性，最後詞性設爲null），再次使用維特比標註詞性：

新詞識別