做用:解析用戶傳遞的搜索信息,抽取出關鍵字,而後進行過濾,最後去索引庫檢索,返回用戶須要的信息,例如百度的關鍵字競價機制web
做用:檢查域的文本和生成token stream,分析器經過scheme.xml配置文件中的fieldType元素配置,傳統的搜索時全文匹配,分析器能夠經過分析用戶輸入的文本字符抽取term(關鍵字),進行查詢而後彙總結果,這樣搜索引擎更加智能化apache
簡單案例:schema.xml配置搜索引擎
<fieldType name="nametext" class="solr.TextField"> <analyzer class="org.apache.lucene.analysis.core.WhitespaceAnalyzer"/> </fieldType> 分析:爲solr.TextField的域類型指定分析器
複雜定義分析器:spa
<fieldType name="nametext" class="solr.TextField"> <analyzer> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class="solr.StandardFilterFactory"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.StopFilterFactory"/> <filter class="solr.EnglishPorterFilterFactory"/> </analyzer> </fieldType> 分析:Field的Text首先被傳遞給第一個solr.StandardTokenizerFactory,最後一個組件產生terms,詞語,用於索引或查詢nameText類型的field
注意:code
org.apache.solr.analysis包裏面的類能夠直接被引用爲solr.爲前綴的類 例: solr.EnglishPorterFilterFactory 等價於 org.apache.solr.analysis. EnglishPorterFilterFactoryxml
Analyzer會影響在給定Filed裏面索引的term,可是不會影響其實際存儲的值blog
分析發生在2種狀況:索引
一般一樣的分應用於index/query兩個階段,當進行準確的字符串匹配時效果使人滿意,在其餘的狀況下索引和查詢階段能夠輕微不一樣token
一些狀況下Analysis處理不是天然語言,像同義詞、過濾的中止詞Analysis Factory能夠在進行這種類型的查詢,例如小寫處理,分析工廠典型MultiTermAwareComponent,當solr對多語句集的結果執行查詢分析事,只有MultiTermAwareComponent能用於查詢分析器中,其餘的Factory會被忽略字符串
<fieldType name="nametext" class="solr.TextField"> <analyzer type="index"> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.KeepWordFilterFactory" words="keepwords.txt"/> <filter class="solr.SynonymFilterFactory" synonyms="syns.txt"/> </analyzer> <analyzer type="query"> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> <!-- No analysis at all when doing queries that involved Multi-Term expansion --> <analyzer type="multiterm"> <tokenizer class="solr.KeywordTokenizerFactory" /> </analyzer> </fieldType>
做用:分詞器主要用於拆分文本流爲Tokens,每一個Token是文本流的一個子串,分析器直到solr配置的Field,可是Tokenizer不知道,所以分詞器只是進行簡單的拆分工做
<fieldType name="text_ik" class="solr.TextField"> <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType>
4.配置Field使用ik分詞器的fieldType
<field name="title_ik" type="text_ik" indexed="true" stored="true"/> <field name="content_ik" type="text_ik" indexed="true" stored="false" multiValued="true" />
效果:
注意:新版本的solr可能和IK分詞器不兼容,需修改IK分詞器源碼