精準分詞是Ansj分詞的店長推薦款spa
它在易用性,穩定性.準確性.以及分詞效率上.都取得了一個不錯的平衡.若是你初次嘗試Ansj若是你想開箱即用.那麼就用這個分詞方式是不會錯的.索引
用戶自定義詞典優先策略的分詞,若是你的用戶自定義詞典足夠好,或者你的需求對用戶自定義詞典的要求比較高,那麼強烈建議你使用DicAnalysis的分詞方式.table
能夠說在不少方面Dic優於ToAnalysis的結果效率
nlp分詞是總能給你驚喜的一種分詞方式.登錄
它能夠識別出未登陸詞.可是它也有它的缺點.速度比較慢.穩定性差.ps:我這裏說的慢僅僅是和本身的其餘方式比較.應該是40w字每秒的速度吧.語法
我的以爲nlp的適用方式.1.語法實體名抽取.未登陸詞整理.只要是對文本進行發現分析等工做lucene
面向索引的分詞。顧名思義就是適合在lucene等文本檢索中用到的分詞。主要考慮如下兩點統計
- 召回率
- 召回率是對分詞結果儘量的涵蓋。好比對「上海虹橋機場南路」 召回結果是[上海/ns, 上海虹橋機場/nt, 虹橋/ns, 虹橋機場/nz, 機場/n, 南路/nr]
- 準確率
- 其實這和召回自己是具備必定矛盾性的Ansj的強大之處是很巧妙的避開了這兩個的衝突 。好比咱們常見的歧義句「旅遊和服務」->對於通常保證召回 。你們會給出的結果是「旅遊 和服 服務」 對於ansj不存在跨term的分詞。意思就是。召回的詞只是針對精準分詞以後的結果的一個細分。比較好的解決了這個問題
基本就是保證了最基本的分詞.詞語顆粒度最很是小的..所涉及到的詞大約是10萬左右.tab
基本分詞速度很是快.在macAir上.能到每秒300w字每秒.同時準確率也很高.可是對於新詞他的功能十分有限.block
名稱 | 用戶自定義詞典 | 數字識別 | 人名識別 | 機構名識別 | 新詞發現 |
---|---|---|---|---|---|
BaseAnalysis | X | X | X | X | X |
ToAnalysis | √ | √ | √ | X | X |
DicAnalysis | √ | √ | √ | X | X |
IndexAnalysis | √ | √ | √ | X | X |
NlpAnalysis | √ | √ | √ | √ | √ |