SOLR (全文檢索)

時間 2019-11-21

標籤 solr 全文檢索简体版

原文原文鏈接

SOLR (全文檢索)

http://sinykk.iteye.com/php

1. 什麼是SOLR

官方網站html

http://wiki.apache.org/solrjava

http://wiki.apache.org/solr/DataImportHandlernode

本文檔以solr3.4 tomcat6.3 IKAnalyzer3.2.5Stable爲例mysql

1.1. 什麼是SOLR

Solr是一個高性能，採用Java5開發，基於Lucene的全文搜索服務器。同時對其進行了擴展，提供了比Lucene更爲豐富的查詢語言，同時實現了可配置、可擴展並對查詢性能進行了優化，而且提供了一個完善的功能管理界面，是一款很是優秀的全文搜索引擎。linux

文檔經過Http利用XML 加到一個搜索集合中。查詢該集合也是經過http收到一個XML/JSON響應來實現。它的主要特性包括：高效、靈活的緩存功能，垂直搜索功能，git

1.2. 在什麼場合使用

一、你搜索數據庫數據時你的主鍵不是整形的，多是UUIDweb

二、搜索任何文本類文檔，甚至包括RSS,EMAIL等sql

2. 如何使用solr

經過在WINDOWS或LINUX服務器安裝SOLR服務器，並配置上相應的索引規則，經過JAVA或PHP等腳本語言進行調用和查詢數據庫

2.1. Window下安裝solr

1. 下載所需軟件，安裝配置Tomcat。

下載軟件爲：Tomcat與Solr，jdk1.6，官網均可免費下載。

2. Tomcat 配置文件conf\server.xml

添加編碼的配置 URIEncoding="UTF-8" （如不添加，中文檢索時由於亂碼搜索不到）。
添加後爲：
<Connector port="8983" protocol="HTTP/1.1" connectionTimeout="20000"
redirectPort="8443" URIEncoding="UTF-8" />

3. 將D:\solr\apache-solr-3.3.0 解壓

5. 創建d:/solr/home主目錄(能夠根據本身的狀況創建)，把D:\solr\apache-solr-3.3.0\example\solr複製到該目錄下。

6. 創建solr.home 環境變量：置爲 d:/solr/home

7. 將solr.War複製到tomcat的webapp下啓動是會自動解壓。

8. 修改D:\resouce\java\tomcat\webapps\solr\WEB-INF\web.xml.

<env-entry>
<env-entry-name>solr/home</env-entry-name>
<env-entry-value>d:\solr\home</env-entry-value>
<env-entry-type>java.lang.String</env-entry-type>
</env-entry>
9. 啓動tomcat，瀏覽器輸入：http://localhost:8080/solr/
10.看到頁面說明部署成功

2.2. linux下安裝solr

此linux安裝版結合直接安裝帶有分詞功能

一、將TOMCAT解壓到 /usr/local/apache-tomcat-6.0.33/

二、將 /solr/apache-solr-3.3.0/example/solr 文件拷貝到 /usr/local/apache-tomcat-6.0.33/

三、而後修改TOMCAT的/usr/local/apache-tomcat-6.0.33/conf/server.xml【增長中文支持】

<Connector port="8983" protocol="HTTP/1.1"

connectionTimeout="20000"

redirectPort="8443" URIEncoding="UTF-8"/>

<Connector port="8983" protocol="HTTP/1.1"

connectionTimeout="20000"

redirectPort="8443" URIEncoding="UTF-8"/>

四、添加文件 /usr/local/apache-tomcat-6.0.33/conf/Catalina/localhost/solr.xml 內容以下

<?xml version="1.0" encoding="UTF-8"?>

</Context>

<?xml version="1.0" encoding="UTF-8"?>

</Context>

五、將/sinykk/solr/apache-solr-3.3.0/example/webapps/solr.war文件放到/usr/local/apache-tomcat-6.0.33/webapps文件夾下，並啓動TOMCAT

六、將/sinykk/solr/IKAnalyzer3.2.8.jar 文件放到/usr/local/apache-tomcat-6.0.33/webapps/solr/WEB-INF/lib 目錄下

七、修改/usr/local/apache-tomcat-6.0.33/solr/conf/schema.xml文件爲

<?xml version="1.0" encoding="UTF-8" ?>

<types>

<!--

</analyzer>

</analyzer>

</fieldType>

-->

<filter class="solr.StopFilterFactory"

ignoreCase="true" words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="0"

splitOnCaseChange="1"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

</analyzer>

<filter class="solr.StopFilterFactory"

ignoreCase="true" words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="0"

splitOnCaseChange="1"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

</analyzer>

</fieldType>

</types>

</fields>

</schema>

<?xml version="1.0" encoding="UTF-8" ?>

<types>

<!--

</analyzer>

</analyzer>

</fieldType>

-->

<filter class="solr.StopFilterFactory"

ignoreCase="true" words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="0"

splitOnCaseChange="1"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

</analyzer>

<filter class="solr.StopFilterFactory"

ignoreCase="true" words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="0"

splitOnCaseChange="1"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

</analyzer>

</fieldType>

</types>

</fields>

</schema>

最後運行http://192.168.171.129:8983/solr/admin/analysis.jsp

2.3. solr 將MYSQL數據庫作成索引數據源

solr 將MYSQL數據庫作成索引數據源【注意格式】

參考：http://digitalpbk.com/apachesolr/apache-solr-mysql-sample-data-config

1. 在solrconfig.xml中添加，增長導入數據功能

<str name="config">data-config.xml</str>

</lst>

</requestHandler>

2. 添加一個數據源data-config.xml,代碼以下

<dataSource type="JdbcDataSource"

driver="com.mysql.jdbc.Driver"

url="jdbc:mysql://localhost/test"

user="root"

password=""/>

</entity>

</document>

</dataConfig>

3. 3、建立schema.xml語法，代碼以下

<?xml version="1.0" encoding="UTF-8" ?>

<types>

</analyzer>

</analyzer>

</fieldType>

</types>

</fields>

<defaultSearchField>contents</defaultSearchField>

</schema>

<?xml version="1.0" encoding="UTF-8" ?>

<types>

</analyzer>

</analyzer>

</fieldType>

</types>

</fields>

<defaultSearchField>contents</defaultSearchField>

</schema>

schema.xml 裏重要的字段

要有這個copyField字段SOLR才能檢索多個字段的值【如下設置將同時搜索 title,name,contents中的值】
<defaultSearchField>contents</defaultSearchField>
copyField是用來複製你一個欄位裡的值到另外一欄位用. 如你能夠將name裡的東西copy到default裡, 這樣solr作檢索時也會檢索到name裡的東西.
<copyField source="name" dest="contents"/>
<copyField source="title" dest="contents"/>

四、建立索引

http://192.168.171.129:8983/solr/dataimport?command=full-import

注：保證與數據庫鏈接正確

2.4. SOLR多個索引共存 multiple core

參考：http://wiki.apache.org/solr/CoreAdmin

1. 配置多個索引

</cores>

</solr>

2、將D:\solr\apache-solr-3.3.0\example\multicore下的 core0,core1兩個文件拷貝到D:\solr\home下，D:\solr\home目錄下以前的任務目錄及文件不變

注：D:\solr\home目錄爲D:\solr\apache-solr-3.3.0\example\solr

3、創建兩個索引數據存放目錄
D:\solr\home\core0\data
D:\solr\home\core1\data

4、修改其中一個索引如CORE1
修改solrconfig.xml爲以下代碼
【注須要加入 lib 標籤主要是由於DataImportHandler 爲報錯，這多是官方的BUG】