企業級搜索應用服務器solr介紹

時間 2019-11-12

標籤企業搜索應用服務器 solr 介紹简体版

原文原文鏈接

簡介

Solr是一個獨立的企業級搜索應用服務器，它對外提供相似於Web-service的API接口。用戶能夠經過http請求，向搜索引擎服務器提交必定格式的XML文件，生成索引；也能夠經過Http Get操做提出查找請求，並獲得XML格式的返回結果；正則表達式

特色

Solr是一個獨立的企業搜索服務器REST-like API。你把文件(稱爲「索引」) 經過XML、JSON、CSV經過HTTP或二進制。你查詢它經過HTTP GET和接收XML、JSON、CSV或二進制的結果。數據庫

高級全文搜索功能瀏覽器
優化了高容量的網絡流量緩存
基於標準的開放接口——XML、JSON和HTTP 性能優化
綜合HTML管理接口服務器
服務器統計數據暴露在JMX監控網絡
線性可伸縮、自動索引複製,自動故障轉移和恢復併發
接近實時索引分佈式
靈活和適應性強的XML配置函數
可擴展的插件體系結構

Solr使用Lucene TM 搜索庫和擴展了它!

真正的數據模式,數值類型、動態字段,獨特的鑰匙
強大的擴展Lucene查詢語言
面向方面的搜索和過濾
地理空間搜索支持多個分文檔和geo多邊形
先進、可配置的文本分析
高度可配置和用戶可擴展的緩存
性能優化
外部配置經過XML
一個基於AJAX的管理界面
可監控日誌
快接近實時增量索引和索引複製
高度可伸縮的分佈式搜索分散指數跨多個主機
JSON、XML、CSV / delimited-text和二進制格式更新
簡單的方法將數據從數據庫和XML文件從本地磁盤和HTTP消息
豐富的文檔解析和索引(PDF、Word、HTML等)使用Apache Tika
Apache UIMA集成配置元數據提取
多個搜索指數

詳細的功能

模式

定義文檔的字段類型和字段
能夠更智能的處理
聲明式Lucene分析儀規範
動態字段支持動態添加新字段
CopyField功能容許索引一個領域的多個方面,或將多個字段組合成一個可搜索的字段
顯式類型不須要猜想類型的字段
外部文件的配置stopword列表、同義詞列表和受保護的單詞列表
許多額外的文本分析組件,包括分詞、正則表達式和近似讀音過濾器
可插入的每一個領域類似模型

查詢

HTTP接口具備可配置響應格式(XML / XSLT、JSON、Python、Ruby PHP,速度、CSV、二進制)
經過任意數量的字段進行排序,並經過複雜的數值字段功能
高級DisMax查詢解析器高相關性用戶輸入的查詢的結果
強調上下文片斷
分面搜索基於獨特的字段值,顯式查詢,日期範圍,數值範圍或樞軸
同時選中分類經過標記和選擇性地排除過濾器
拼寫建議用戶查詢
更像這個建議給定文檔
函數查詢——影響的分數經過用戶指定複雜的功能數值字段或查詢相關性分數。
範圍過濾函數查詢結果
日期數學——相對於「如今」指定日期的查詢和更新
使用Carrot2動態搜索結果聚類
數值字段統計如最小,最大,平均值,標準誤差
結合查詢源自不一樣的語法
完成用戶查詢之功能
容許配置的結果爲一個查詢,覆蓋正常的得分和排序
簡單的兩個文檔類型之間的鏈接能力
性能優化

核心

沒有從新啓動動態建立和刪除文檔集合
可插拔的查詢處理程序和可擴展的XML數據格式
可插拔的用戶查詢的功能函數
可定製的基於組件的請求處理程序與分佈式搜索的支持
文檔獨特性執行基於獨特的關鍵字段
文檔複製檢測,包括模糊附近重複
自定義索引處理鏈,使索引以前文檔操做
用戶可配置的命令觸發指數變化
與排序字段丟失控制文檔的能力將被放置
「路加福音」語料庫信息請求處理程序

緩存

可配置查詢結果、過濾和文檔緩存實例
可插拔的緩存實現,包括鎖自由、高併發性實現
緩存變暖背景
當一個新搜索器打開,可配置搜索與運行避免爲了溫暖起來緩慢的第一個打擊。在變暖,當前搜索器處理請求。
Autowarming背景
最近訪問的緩存條目新搜索器搜索器,使高緩存命中利率在索引/搜索者的變化。
快速/小過濾器實現
用戶級緩存autowarming支持

SolrCloud

集中基於Apache動物園管理員配置
自動化的分佈式索引/分片-文檔發送到任何節點,它將轉發到正確的切分
接近實時索引與直接基於推的複製(也支持基於複製慢)
事務日誌能夠確保不丟失更新即便尚未索引的文檔到磁盤
自動查詢故障轉移,指數領袖選舉和恢復失敗的狀況下
沒有單點故障

管理界面

綜合統計數據緩存利用率、更新和查詢
互動模式瀏覽器,包括索引統計信息
複製監控
SolrCloud儀表盤圖形集羣節點狀態
完整的日誌記錄控制
文本分析調試器,顯示每一個階段在一個分析器的結果
網頁查詢接口w /調試輸出
解析查詢輸出
Lucene文檔得分詳細解釋()
解釋分數之外的文件請求的範圍來調試爲何給定文檔沒有排名更高。

總結

Solr是一個高性能，採用Java5開發，基於Lucene的全文搜索服務器。同時對其進行了擴展，提供了比Lucene更爲豐富的查詢語言，同時實現了可配置、可擴展並對查詢性能進行了優化，而且提供了一個完善的功能管理界面，是一款很是優秀的全文搜索引擎。文檔經過Http利用XML 加到一個搜索集合中。查詢該集合也是經過http收到一個XML/JSON響應來實現。它的主要特性包括：高效、靈活的緩存功能，垂直搜索功能，高亮顯示搜索結果，經過索引複製來提升可用性，提供一套強大Data Schema來定義字段，類型和設置文本分析，提供基於Web的管理界面等。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。