ANSJ 分詞用戶自定義分詞加載順序

時間 2019-11-07

原文原文鏈接

ToAnalysis 精準分詞

精準分詞是Ansj分詞的店長推薦款spa

它在易用性,穩定性.準確性.以及分詞效率上.都取得了一個不錯的平衡.若是你初次嘗試Ansj若是你想開箱即用.那麼就用這個分詞方式是不會錯的.索引

DicAnalysis 用戶自定義詞典優先策略的分詞

用戶自定義詞典優先策略的分詞,若是你的用戶自定義詞典足夠好,或者你的需求對用戶自定義詞典的要求比較高,那麼強烈建議你使用DicAnalysis的分詞方式.table

能夠說在不少方面Dic優於ToAnalysis的結果效率

NlpAnalysis 帶有新詞發現功能的分詞

nlp分詞是總能給你驚喜的一種分詞方式.登錄

它能夠識別出未登陸詞.可是它也有它的缺點.速度比較慢.穩定性差.ps:我這裏說的慢僅僅是和本身的其餘方式比較.應該是40w字每秒的速度吧.語法

我的以爲nlp的適用方式.1.語法實體名抽取.未登陸詞整理.只要是對文本進行發現分析等工做lucene

IndexAnalysis 面向索引的分詞

面向索引的分詞。顧名思義就是適合在lucene等文本檢索中用到的分詞。主要考慮如下兩點統計

召回率

召回率是對分詞結果儘量的涵蓋。好比對「上海虹橋機場南路」召回結果是[上海/ns, 上海虹橋機場/nt, 虹橋/ns, 虹橋機場/nz, 機場/n, 南路/nr]

準確率

其實這和召回自己是具備必定矛盾性的Ansj的強大之處是很巧妙的避開了這兩個的衝突。好比咱們常見的歧義句「旅遊和服務」->對於通常保證召回。你們會給出的結果是「旅遊和服服務」對於ansj不存在跨term的分詞。意思就是。召回的詞只是針對精準分詞以後的結果的一個細分。比較好的解決了這個問題