1、IK簡介java
IK Analyzer是一個開源的,基於java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始, IKAnalyzer已經推出了4個大版本。最初,它是以開源項目Luence爲應用主體的,結合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開 始,IK發展爲面向Java的公用分詞組件,獨立於Lucene項目,同時提供了對Lucene的默認優化實現。在2012版本中,IK實現了簡單的分詞 歧義排除算法,標誌着IK分詞器從單純的詞典分詞向模擬語義分詞衍化。 git
IK Analyzer 2012特性:github
1.採用了特有的「正向迭代最細粒度切分算法「,支持細粒度和智能分詞兩種切分模式;算法
2.在系統環境:Core2 i7 3.4G雙核,4G內存,window 7 64位, Sun JDK 1.6_29 64位 普通pc環境測試,IK2012具備160萬字/秒(3000KB/S)的高速處理能力。app
3.2012版本的智能分詞模式支持簡單的分詞排歧義處理和數量詞合併輸出。curl
4.採用了多子處理器分析模式,支持:英文字母、數字、中文詞彙等分詞處理,兼容韓文、日文字符elasticsearch
5.優化的詞典存儲,更小的內存佔用。支持用戶詞典擴展定義。特別的,在2012版本,詞典支持中文,英文,數字混合詞語。ide
2、安裝IK分詞插件工具
假設讀者已經安裝好ES,若是沒有的話,請參考ElasticSearch入門 —— 集羣搭建。安裝IK分詞須要的資源能夠從這裏下載,整個安裝過程須要三個步驟:測試
一、獲取分詞的依賴包
經過git clone https://github.com/medcl/elasticsearch-analysis-ik,下載分詞器源碼,而後進入下載目錄,執行命令:mvn clean package,打包生成elasticsearch-analysis-ik-1.2.5.jar。將這個jar拷貝到ES_HOME/plugins/analysis-ik目錄下面,若是沒有該目錄,則先建立該目錄。
二、ik目錄拷貝
將下載目錄中的ik目錄拷貝到ES_HOME/config目錄下面。
三、分詞器配置
打開ES_HOME/config/elasticsearch.yml文件,在文件最後加入以下內容:
index: analysis: analyzer: ik: alias: [ik_analyzer] type: org.elasticsearch.index.analysis.IkAnalyzerProvider ik_max_word: type: ik use_smart: false ik_smart: type: ik use_smart: true index.analysis.analyzer.default.type: ik
ok!插件安裝已經完成,請從新啓動ES,接下來測試ik分詞效果啦!
3、ik分詞測試
一、建立一個索引,名爲index。
curl -XPUT http://localhost:9200/index
二、爲索引index建立mapping。
curl -XPOST http://localhost:9200/index/fulltext/_mapping -d' { "fulltext": { "_all": { "analyzer": "ik" }, "properties": { "content": { "type" : "string", "boost" : 8.0, "term_vector" : "with_positions_offsets", "analyzer" : "ik", "include_in_all" : true } } } }'
三、測試
curl 'http://localhost:9200/index/_analyze?analyzer=ik&pretty=true' -d ' { "text":"世界如此之大" }'
顯示結果以下:
{ "tokens" : [ { "token" : "text", "start_offset" : 4, "end_offset" : 8, "type" : "ENGLISH", "position" : 1 }, { "token" : "世界", "start_offset" : 11, "end_offset" : 13, "type" : "CN_WORD", "position" : 2 }, { "token" : "如此", "start_offset" : 13, "end_offset" : 15, "type" : "CN_WORD", "position" : 3 }, { "token" : "之大", "start_offset" : 15, "end_offset" : 17, "type" : "CN_WORD", "position" : 4 } ] }
參考資料
https://github.com/medcl/elasticsearch-analysis-ik
歡迎轉載,請註明出處:http://my.oschina.net/xiaohui249/blog/232784