一步一步學solr:什麼是solr?

簡介

    Solr是一個獨立的企業級搜索應用服務器,它對外提供相似於Web-service的API接口。用戶能夠經過http請求,向搜索引擎服務器提交必定格式的XML文件,生成索引;也能夠經過Http Get操做提出查找請求,並獲得XML格式的返回結果;正則表達式

特色

    Solr是一個獨立的企業搜索服務器REST-like API。 你把文件(稱爲「索引」) 經過XML、JSON、CSV經過HTTP或二進制。 你查詢它經過HTTP GET和接收XML、JSON、CSV或二進制的結果。數據庫

    • 高級全文搜索功能apache

    • 優化了高容量的網絡流量瀏覽器

    • 基於標準的開放接口——XML、JSON和HTTP緩存

    • 綜合HTML管理接口tomcat

    • 服務器統計數據暴露在JMX監控性能優化

    • 線性可伸縮、自動索引複製,自動故障轉移和恢復服務器

    • 接近實時索引網絡

    • 靈活和適應性強的XML配置併發

    • 可擴展的插件體系結構

Solr使用Lucene TM 搜索庫和擴展了它!

    • 真正的數據模式,數值類型、動態字段,獨特的鑰匙

    • 強大的擴展Lucene查詢語言

    • 面向方面的搜索和過濾

    • 地理空間搜索支持多個分文檔和geo多邊形

    • 先進、可配置的文本分析

    • 高度可配置和用戶可擴展的緩存

    • 性能優化

    • 外部配置經過XML

    • 一個基於AJAX的管理界面

    • 可監控日誌

    • 快接近實時增量索引和索引複製

    • 高度可伸縮的分佈式搜索分散指數跨多個主機

    • JSON、XML、CSV / delimited-text和二進制格式更新

    • 簡單的方法將數據從數據庫和XML文件從本地磁盤和HTTP消息

    • 豐富的文檔解析和索引(PDF、Word、HTML等)使用Apache Tika

    • Apache UIMA集成配置元數據提取

    • 多個搜索指數

詳細的功能

模式

    • 定義文檔的字段類型和字段

    • 能夠更智能的處理

    • 聲明式Lucene分析儀規範

    • 動態字段支持動態添加新字段

    • CopyField功能容許索引一個領域的多個方面,或將多個字段組合成一個可搜索的字段

    • 顯式類型不須要猜想類型的字段

    • 外部文件的配置stopword列表、同義詞列表和受保護的單詞列表

    • 許多額外的文本分析組件,包括分詞、正則表達式和近似讀音過濾器

    • 可插入的每一個領域類似模型

查詢

    • HTTP接口具備可配置響應格式(XML / XSLT、JSON、Python、Ruby PHP,速度、CSV、二進制)

    • 經過任意數量的字段進行排序,並經過複雜的數值字段功能

    • 高級DisMax查詢解析器高相關性用戶輸入的查詢的結果

    • 強調上下文片斷

    • 分面搜索基於獨特的字段值,顯式查詢,日期範圍,數值範圍或樞軸

    • 同時選中分類經過標記和選擇性地排除過濾器

    • 拼寫建議用戶查詢

    • 更像這個建議給定文檔

    • 函數查詢——影響的分數經過用戶指定複雜的功能 數值字段或查詢相關性分數。

    • 範圍過濾函數查詢結果

    • 日期數學——相對於「如今」指定日期的查詢和更新

    • 使用Carrot2動態搜索結果聚類

    • 數值字段統計如最小,最大,平均值,標準誤差

    • 結合查詢源自不一樣的語法

    • 完成用戶查詢之功能

    • 容許配置的結果爲一個查詢,覆蓋正常的得分和排序

    • 簡單的兩個文檔類型之間的鏈接能力

    • 性能優化

核心

    • 沒有從新啓動動態建立和刪除文檔集合

    • 可插拔的查詢處理程序和可擴展的XML數據格式

    • 可插拔的用戶查詢的功能函數

    • 可定製的基於組件的請求處理程序與分佈式搜索的支持

    • 文檔獨特性執行基於獨特的關鍵字段

    • 文檔複製檢測,包括模糊附近重複

    • 自定義索引處理鏈,使索引以前文檔操做

    • 用戶可配置的命令觸發指數變化

    • 與排序字段丟失控制文檔的能力將被放置

    • 「路加福音」語料庫信息請求處理程序

緩存

    • 可配置查詢結果、過濾和文檔緩存實例

    • 可插拔的緩存實現,包括鎖自由、高併發性實現

    • 緩存變暖背景

    • 當一個新搜索器打開,可配置搜索與運行 避免爲了溫暖起來 緩慢的第一個打擊。 在變暖,當前搜索器處理請求。

    • Autowarming背景

    • 最近訪問的緩存條目 新搜索器搜索器,使高緩存命中 利率在索引/搜索者的變化。

    • 快速/小過濾器實現

    • 用戶級緩存autowarming支持

SolrCloud

    • 集中基於Apache動物園管理員配置

    • 自動化的分佈式索引/分片-文檔發送到任何節點,它將轉發到正確的切分

    • 接近實時索引與直接基於推的複製(也支持基於複製慢)

    • 事務日誌能夠確保不丟失更新即便尚未索引的文檔到磁盤

    • 自動查詢故障轉移,指數領袖選舉和恢復失敗的狀況下

    • 沒有單點故障

管理界面

    • 綜合統計數據緩存利用率、更新和查詢

    • 互動模式瀏覽器,包括索引統計信息

    • 複製監控

    • SolrCloud儀表盤圖形集羣節點狀態

    • 完整的日誌記錄控制

    • 文本分析調試器,顯示每一個階段在一個分析器的結果

    • 網頁查詢接口w /調試輸出

    • 解析查詢輸出

    • Lucene文檔得分詳細解釋()

    • 解釋分數之外的文件請求的範圍來調試爲何給定文檔沒有排名更高。


總結

    Solr是一個高性能,採用Java5開發,基於Lucene的全文搜索服務器。同時對其進行了擴展,提供了比Lucene更爲豐富的查詢語言,同時實現了可配置、可擴展並對查詢性能進行了優化,而且提供了一個完善的功能管理界面,是一款很是優秀的全文搜索引擎。文檔經過Http利用XML 加到一個搜索集合中。查詢該集合也是經過http收到一個XML/JSON響應來實現。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結果,經過索引複製來提升可用性,提供一套強大Data Schema來定義字段,類型和設置文本分析,提供基於Web的管理界面等。

下面將寫solr站內搜索的實戰,基於solr4.9+tomcat7,歡迎更多好朋友一塊兒討論。


參考文獻:http://wiki.apache.org/solr/

相關文章
相關標籤/搜索