Solr7使用Oracle數據源導入+中文分詞

安裝目錄假設爲#solr_home,本文的#solr_home爲apps/svr/solrhtml

 1、Oracle數據導入web

1. 在#solr_home/server/solr下新建文件夾,假設爲mjd;數據庫

2. 將#solr_home/server/solr/configsets/_default下的conf文件夾拷貝到#solr_home/server/solr/mjd;apache

3.打開mjd/conf下的solrconfig.xml添加節點;服務器

<lib dir="${solr.install.dir:../../../..}/contrib/dataimporthandler/" regex=".*\.jar">
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar">

4. 一樣上面那個文件,增長節點;oracle

<requestHandler name="/dataimport" class="org.apche.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</list>
</requestHandler>

5. 下載ojdbc6.jar到#solr_home/contrib/dataimporthandler/中,我是在http://vdisk.weibo.com/s/z8ZZMoqsgpNFH中下載的;app

6. 在#solr_home/server/solr/mjd/conf下新建文件data-config.xml,打開,將下列配置複製;less

<dataConfig>
    <dataSource driver="oracle.jdbc.driver.OracleDriver" url="jdbc:oracle:thin:@192.168.2.218:1521:product " user="數據庫用戶名" password="數據庫密碼" />
    <document name=」product」 pk=」主鍵」>
        <entity name="bless" query="select * from bless"<--這裏配查詢語句-->
deltaImportQuery="SELECT * FROM userinfo where spuid='${dih.delta.spuid}'" 
                deltaQuery="select bless_id from bless where bless_time > '${dataimporter.last_index_time}'"><--這裏配增量查詢語句,${dataimporter.last_index_time}表示上次更新時間-->
        </entity>
    </document>
</dataConfig>

7. 進入web管理頁面 localhost:8983/solr/#,點擊Core Admin菜單,點擊AddCore,將name和instanceDir設置爲剛纔咱們第一步新建的文件夾名稱;curl

8. 在菜Thread Dump下方有一個下拉框,選擇剛新建的Core,點擊Schema 裏的Add field菜單,name輸入剛纔配置的查詢語句中的某個字段(假設該字段爲字符串類型),點擊field type,選擇text_gerneral,點擊下面的添加按鈕;webapp

9. 回到左側菜單,選擇Dataimport,點擊Execute菜單;

10. 回到左側菜單,選擇Query,點擊Execute Query,若是右側查詢出數據,恭喜你,你已經配置好了;

可根據第八步繼續添加本身想要的字段,重複9 10步驟;

 

2、中文分詞

Solr7以前好像大部分使用的是IK中文分詞器,可是我試了好幾個方法,都沒有成功,並且跟網上經驗描述的目錄結構也不少不同,好比大部分說要修改Schema.xml文件,但是後來發現Solr7其實已經不使用Schema了,而是使用的Managed-Schema文件,

並且這裏有個問題就是,當重啓Solr服務器後,項目中的這個文件會被覆蓋掉,目前尚未找到是從哪裏拷貝過來的模板。進入正題:

1. 進入#solr_home/contrib/analysis-extras/lucene-libs,找到lucene-analyzers-smartcn-7.0.1.jar,複製到#solr_home/server/solr-webapp/webapp/WEB-INF/lib下;

2. 打開#solr_home/server/solr/configsets/_default/conf下的managed-schema,在文件後面加上以下節點

<!-- ChineseAnalyzer -->
    <fieldType name="text_cn_splitting" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
      </analyzer>
    </fieldType>

 3.重啓solr服務;

4.在第一部分第8步的時候,Add Field的時候,看是否有text_cn_splitting類型可選,若是有的話,那在add field的時候將須要進行中文分詞的字段選擇該類型便可;

 

 定時任務:

使用系統的定時任務執行 curl

http://your_ip/dataimport?command=full-import&clean=true&commit=true 全量導入

http://your_ip/dataimport?command=delta-import&clean=false&commit=true 差別導入

這裏clean參數若是是true,會把以前的數據清空掉,而後導入差別的數據,在差別性導入時注意這個參數,否則會把solr裏的數據清空,而後導入差別性的數據(這個差別是清空前的差別),致使數據缺失;

建議訪問低頻時重建全量索引,如天天凌晨4點作一次全量導入,每10分鐘作一次差別導入

 

FQA:

1.增量導入是以主鍵做爲增量差別,默認這個主鍵是id,須要在managed-schema裏修改uniqueKey節點成須要的主鍵,且在該文件裏定義的主鍵必須是string類型的,以下圖

 2. 若是須要設置單字段索引,而不每一個字段都去檢索,好比有數據字段author,title,keywords,body,搜索的時候想搜索這四個字段,可使用copyField字段,具體方法,在managed-schema中添加以下節點

3. Solr7中已經再也不支持defaultSearchField默認搜索字段了。須要設置默認搜索字段須要在solrconfig.xml中配置,

 

參考資料:

http://www.javashuo.com/article/p-ofqfipgl-c.html

http://archive.apache.org/dist/lucene/solr/ref-guide/apache-solr-ref-guide-7.0.pdf

https://wiki.apache.org/solr/DataImportHandler

 

本文原創,轉載請註明出處。

相關文章
相關標籤/搜索