SolrCloud6.1.0之SQL查詢測試

時間 2020-01-09

標籤 solrcloud6.1.0 solrcloud sql 查詢測試欄目雲服務简体版

原文原文鏈接

Solr發展飛快，如今最新的版本已經6.1.0了，下面來回顧下Solr6.x以後的一些新的特色：

（1）並行SQL特性支持，編譯成Streaming 表達式，能夠在solrcloud集羣中，並行執行
（2）SolrCloud的Collection被抽象成關係型數據庫表，如今不單單能夠支持強大的全文檢索，還經過SQL支持像數據庫同樣的BI分析
（3）在SQL的where語句中，全面支持強大的Lucene/Solr語法
（4）一些聚合操做例如Group會自動優化成並行操做，經過使用Streaming表達式來以Map-Reduce的方式運行
（5）在（4）中運行的聚合操做，還能夠以原生的JSON Facet 方式，來優化提高性能
（6）SQL特性目前僅支持SolrCloud集羣方式，單機方式並不支持

有關SolrCloud的集羣搭建，在這裏散仙就不詳細說了，有興趣的朋友，能夠參考我前面的文章
http://qindongliang.iteye.com/blog/2275990，搭建好的集羣以下：

實際上像Solr或者ElasticSearch能支持SQL，這並不奇怪，由於他們底層基本上都提供了SQL能支持的大部分功能接口，好比，排序，過濾
分組，聚合等一些操做，能支持SQL，但不意味着能取代關係型數據庫，偏偏相反，NoSQL是做爲SQL的有力補充，怎麼樣組合搭配使用，能把業務
場景優化的更好，或者能解決某類問題，纔是引入這些框架的初衷。

前面說到，Solr在api層面已經有各類功能的接口，缺的就是一個SQL語法解析器，以及如何與最新的Java8的對接？因此在Solr6.x裏面，引入兩個
最重要的東東就是：

（1）引入了Facebook開源的大數據SQL檢索框架Presto的SQL Parser
（2）使用Java8的Streaming Api寫的Streaming Expressions （流式表達式），支持相似shell的管道的計算方式，能夠對數據流進行各類複雜操做例如各類join，
也能夠進行圖譜查詢

使用Solrj經過JDBC查詢Solr，目前只能查，暫不支持更新，修改，刪除等操做
依賴jar包：
$SOLR_HOME/dist/solrj-libs 全部的jar
$SOLR_HOME/dist/solr-solrj-<version>.jar solr-solrj.jar
若是是maven項目：

web

Java代碼 sql

shell
<dependency> 數據庫
<groupId>org.apache.solr</groupId> apache
<artifactId>solr-solrj</artifactId> api
<version>6.1.0</version> 微信
</dependency> app

下面來看一段Solrj經過JDBC查詢示例：
框架

Java代碼 curl

Connection con=null;
Statement stmt=null;
ResultSet rs=null;
try{
String collection="sql_search";
String aggregationMode="facet";// facet or map_reduce
//注意solr//:後面跟的是zk集羣地址，若是有chroot path還須要加上
con=DriverManager.getConnection("jdbc:solr://192.168.1.184:2181/solr6?collection="+collection+"&aggregationMode="+aggregationMode+"&numWorkers=2");
//檢索，排序，topN
String sql1="select dtime from big_search order by dtime desc limit 4 ";
//多級分組，排序1
String sql2="select t1,t2,t3 , count(*) from big_search group by t1,t2 ,t3 order by count(*) desc limit 3 ";
//分組，過濾，排序2
String sql21="select t1, count(*) from big_search group by t1 having count(*) > 2 order by count(*) desc ";
//去重
String sql221="select distinct t3 from sql_search limit 2 ";
//全文檢索查詢
String sql15="select rowkey from big_search where title='(你好蘇州)' limit 4 ";
//聚合函數支持max，min，avg，sum，count
String sql4="select count(*) from big_search limit 2 ";
//提取字段
String sql3="select t1,t2 from big_search ";
stmt = con.createStatement();//編譯sql
rs = stmt.executeQuery(sql21);//執行sql
ResultSetMetaData metaData = rs.getMetaData(); //獲取字段名元數據
String line_space="\t"; //格式化打印
for(int i=1;i<=metaData.getColumnCount();i++){
System.out.print(metaData.getColumnName(i)+line_space);//打印表頭
}
System.out.println();
while(rs.next()) {//循環從遊標提取數據
for(int i=1;i<=metaData.getColumnCount();i++){//遍歷列頭
System.out.print(rs.getString(metaData.getColumnName(i))+line_space);//格式化打印字段內容
}
System.out.println();
}
} finally {
if(rs!=null){
rs.close();
}
if(stmt!=null){
stmt.close();
}
if(con!=null){
con.close();
}
}
System.out.println("====end====");

下面來看一段使用流式表達式查詢的操做，無須任何依賴，在Solr的Admin界面就能操做；
圖中的代碼的是查詢solrcloud中每一個shard一條數據，而後總共返回3條數據，最後對3條數據，排序，取top1

總結：

（1）關於如何集成中文分詞IK或者Ansj

單機版的solr，若是是IK，須要在
solr\server\solr-webapp\webapp\WEB-INF目錄下，新建一個classes目錄，將其詞庫文件所有放進去
而後將IK的jar包，放入solr\server\solr-webapp\webapp\WEB-INF\lib下。

若是是Ansj，則須要將Ansj相關的jar包放入solr\server\solr-webapp\webapp\WEB-INF\lib下，
而後將Ansj的library的目錄，放在solr\server中。

在SolrCloud集羣模式中，是須要把某個collection下的conf下的全部文件，上傳到zookeeper上的，全部的shard都會
從zk上加載所需的文件，包括一些詞庫的配置，這個時候，放在本地磁盤上的詞庫，是不會被識別的，因此你須要把上傳的詞庫
文件一塊兒上傳到zk上，而後配置合理的路徑便可，任何文件的更新，都須要reload整個collection才能更新（solr6以前是須要relaod全部的shard），
不然，發生的改動不會被識別。

（2）理解map_reduce 和 facet兩種聚合模式

A： map_reduce 模式，支持任意多字段的聚合查詢，不受限制，但性能稍低
測試環境5個shard+3個副本
測試數據，必須大於6（shard+1）條數據，不然會報錯

可測 group+distict

執行流程以下：

B：facet 模式，使用Solr原生的Json Facet Api 操做，受必定索引的限制，但性能較高
只要求有shard，有數據，便可測試，利用solr原生的Facet api進行聚合

（3）理解DocValue對SQL查詢的影響
大部分狀況下在Solr中的SQL查詢，是須要加上limit關鍵詞的，若是你不加，要麼你就會發現，你的查詢可能會莫名其妙的報錯
這個時候問題的緣由大部分是跟DocValue有關的， Solr6要求，全部不加的limit查詢的字段，必須所有是DocValue激活的
字段，若是任何一個不是，那麼查詢確定報錯，若是你加了limit關鍵詞，要麼能夠不受這個限制影響。

至於爲何必需要激活DocValue字段才能進行all字段提取查詢，主要目的仍是爲了性能，想了解DocValue能夠
參考散仙以前的文章：http://qindongliang.iteye.com/blog/2297280

（4） Solr6支持客戶端工具（像MySQL的NaviCat）查詢連接：

A：DbVisualizer （C/S客戶端GUI）
B：SQuirreL SQL （C/S客戶端GUI）
C：Apache Zeppelin （B/S web端）
大部分都須要配置添加有關的solr的jdbc的jar包，具體安裝方式參考文末連接

（5）除了JDBC方式支持SQL查詢，http方式也是能夠的：

Shell代碼

[search@h1 ~]$ cat sql.sh
## 聚合模式 map_reduce
#curl --data-urlencode 'stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10' http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=map_reduce
## 聚合模式 facet
curl --data-urlencode 'stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10' http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=facet
[search@h1 ~]$ sh sql.sh
{"result-set":{"docs":[
{"count(*)":4,"t1":"01"},
{"count(*)":2,"t1":"02"},
{"count(*)":2,"t1":"03"},
{"count(*)":2,"t1":"04"},
{"count(*)":2,"t1":"05"},
{"EOF":true,"RESPONSE_TIME":84}]}}

官網文檔：
https://cwiki.apache.org/confluence/display/solr/Streaming+Expressions
https://cwiki.apache.org/confluence/display/solr/Parallel+SQL+Interface#ParallelSQLInterface-SQLClientsandDatabaseVisualizationTools

有什麼問題能夠掃碼關注微信公衆號：我是攻城師(woshigcs)，在後臺留言諮詢。
技術債不能欠，健康債更不能欠，求道之路，與君同行。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。