ANSJ 分詞 用戶自定義分詞加載順序

ToAnalysis 精準分詞

精準分詞是Ansj分詞的店長推薦款spa

它在易用性,穩定性.準確性.以及分詞效率上.都取得了一個不錯的平衡.若是你初次嘗試Ansj若是你想開箱即用.那麼就用這個分詞方式是不會錯的.索引

DicAnalysis 用戶自定義詞典優先策略的分詞

用戶自定義詞典優先策略的分詞,若是你的用戶自定義詞典足夠好,或者你的需求對用戶自定義詞典的要求比較高,那麼強烈建議你使用DicAnalysis的分詞方式.table

能夠說在不少方面Dic優於ToAnalysis的結果效率

NlpAnalysis 帶有新詞發現功能的分詞

nlp分詞是總能給你驚喜的一種分詞方式.登錄

它能夠識別出未登陸詞.可是它也有它的缺點.速度比較慢.穩定性差.ps:我這裏說的慢僅僅是和本身的其餘方式比較.應該是40w字每秒的速度吧.語法

我的以爲nlp的適用方式.1.語法實體名抽取.未登陸詞整理.只要是對文本進行發現分析等工做lucene

IndexAnalysis 面向索引的分詞

面向索引的分詞。顧名思義就是適合在lucene等文本檢索中用到的分詞。主要考慮如下兩點統計

  • 召回率
    • 召回率是對分詞結果儘量的涵蓋。好比對「上海虹橋機場南路」 召回結果是[上海/ns, 上海虹橋機場/nt, 虹橋/ns, 虹橋機場/nz, 機場/n, 南路/nr]
  • 準確率
    • 其實這和召回自己是具備必定矛盾性的Ansj的強大之處是很巧妙的避開了這兩個的衝突 。好比咱們常見的歧義句「旅遊和服務」->對於通常保證召回 。你們會給出的結果是「旅遊 和服 服務」 對於ansj不存在跨term的分詞。意思就是。召回的詞只是針對精準分詞以後的結果的一個細分。比較好的解決了這個問題

BaseAnalysis 最小顆粒度的分詞

基本就是保證了最基本的分詞.詞語顆粒度最很是小的..所涉及到的詞大約是10萬左右.tab

基本分詞速度很是快.在macAir上.能到每秒300w字每秒.同時準確率也很高.可是對於新詞他的功能十分有限.block

功能統計

名稱 用戶自定義詞典 數字識別 人名識別 機構名識別 新詞發現
BaseAnalysis X X X X X
ToAnalysis X X
DicAnalysis X X
IndexAnalysis X X
NlpAnalysis

相關文章
相關標籤/搜索