Solr4.3整合到Tomcat中並添加MMSeg4j中文分詞器

Solr4.3整合到Tomcat中並添加MMSeg4j中文分詞器

一、新建一個文件夾命名爲Solr並在裏面建兩個文件夾分別命名爲home和server。web

二、將下載的Solr包解壓進入example的solr文件夾中拷貝其中的內容到剛建的home文件夾中。服務器

三、將example的webapps文件夾中的solr.war包拷貝到剛建的server文件夾中並解壓獲得。app

四、修改Solr\home\collection1\conf目錄下的solrconfig.xml文件。webapp

能夠看到solr.data.dir指向剛纔見的home文件夾中的data文件夾。咱們須要在home文件夾中建立一個文件夾命名爲data用於存放索引。google

五、爲Tomcat的Server.xml配置Context,也就是在須要啓動Solr應用的Tomcat中的conf目錄中的Server.xml配置文件添加Context節點,配置以下:spa

圖中畫熒光背景的固定寫法。code

六、啓動Tomcat Solr4.3會報一個錯誤。如圖:server

報不能找到SLF4j logging,能夠到Sorl解壓包的solr-4.3.0\example\lib\ext目錄下把裏面五個jar文件拷貝到Solr\server\solr\WEB-INF\lib的目錄中,          而後重啓Tomcat。xml

七、訪問http://localhost:8080/solr 看到了界面:索引

說明Solr跟Tomcat整合成功!

八、整個MMSeg4j中文分詞器到Solr中

8.一、下載MMSeg4j並解壓把mmseg4j-1.9.1\dist 目錄中的三個jar包拷貝到Solr\server\solr\WEB-INF\lib目錄中

下載地址:https://code.google.com/p/mmseg4j/

8.二、打開MMSeg4j解壓目錄中的README.txt文件:

添加README.txt中如上圖畫方框中的xml內容到Solr\home\collection1\conf\schema.xml文件的types節點中:

並修改最後一項的dicPath爲dic

8.三、在Solr/home文件夾中建立dic文件夾,也就是dicPath配置的dic參數

爲何要在home目錄中建立dic文件夾那,經過MMSeg4j的README.txt文件能夠知道:

dicPath 指定詞庫位置(每一個MMSegTokenizerFactory能夠指定不一樣的目錄,當是相對目錄時,是相對 solr.home 的目錄)

8.四、拷貝詞庫到dic目錄中,若是你下載的MMSeg4j文件沒有data文件夾,能夠下載其餘的MMSeg4j文件看看,我下載的 mmseg4j-1.9.1就沒有data文件                   夾,可是1.8.5版本是包含data文件夾的,把data文件夾中的文件拷貝到dic文件夾中,好了中文分詞器就配好了。啓動Solr服務器。

8.五、訪問啓動的Solr的:

分詞已經成果了,上面圖中咱們選擇的textSimple分詞器,其實咱們拷貝了三種分詞器到schema.xml文件中,分別是:textComplex、

textMaxWord和textSimple,大家能夠本身逐個試試。

相關文章
相關標籤/搜索