Hanlp中使用純JAVA實現CRF分詞

與基於隱馬爾可夫模型的最短路徑分詞、N-最短路徑分詞相比,基於條件隨機場(CRF)的分詞對未登錄詞有更好的支持。本文(HanLP)使用純Java實現CRF模型的讀取與維特比後向解碼,內部特徵函數採用 雙數組Trie樹(DoubleArrayTrie)儲存,得到了一個高性能的中文分詞器。 開源項目 本文代碼已集成到HanLP中開源:http://hanlp.com/ CRF簡介 CRF是序列標註場景
相關文章
相關標籤/搜索