SolrCloud6.1.0之SQL查詢測試


45034bcd-0752-315e-b020-418d468423ae.jpg 


Solr發展飛快,如今最新的版本已經6.1.0了,下面來回顧下Solr6.x以後的一些新的特色: 


(1)並行SQL特性支持,編譯成Streaming 表達式,能夠在solrcloud集羣中,並行執行 
(2)SolrCloud的Collection被抽象成關係型數據庫表,如今不單單能夠支持強大的全文檢索,還經過SQL支持像數據庫同樣的BI分析 
(3)在SQL的where語句中,全面支持強大的Lucene/Solr語法 
(4)一些聚合操做例如Group會自動優化成並行操做,經過使用Streaming表達式來以Map-Reduce的方式運行 
(5)在(4)中運行的聚合操做,還能夠以原生的JSON Facet 方式,來優化提高性能 
(6)SQL特性目前僅支持SolrCloud集羣方式,單機方式並不支持 



有關SolrCloud的集羣搭建,在這裏散仙就不詳細說了,有興趣的朋友,能夠參考我前面的文章 
http://qindongliang.iteye.com/blog/2275990,搭建好的集羣以下: 


64027894-f153-30a3-bdfa-0e8879c1b8a7.png


實際上像Solr或者ElasticSearch能支持SQL,這並不奇怪,由於他們底層基本上都提供了SQL能支持的大部分功能接口,好比,排序,過濾 
分組,聚合等一些操做,能支持SQL,但不意味着能取代關係型數據庫,偏偏相反,NoSQL是做爲SQL的有力補充,怎麼樣組合搭配使用,能把業務 
場景優化的更好,或者能解決某類問題,纔是引入這些框架的初衷。 

前面說到,Solr在api層面已經有各類功能的接口,缺的就是一個SQL語法解析器,以及如何與最新的Java8的對接? 因此在Solr6.x裏面,引入兩個 
最重要的東東就是: 

(1)引入了Facebook開源的大數據SQL檢索框架Presto的SQL Parser 
(2)使用Java8的Streaming Api寫的Streaming Expressions (流式表達式),支持相似shell的管道的計算方式,能夠對數據流進行各類複雜操做例如各類join, 
也能夠進行圖譜查詢 


使用Solrj經過JDBC查詢Solr,目前只能查,暫不支持更新,修改,刪除等操做 
依賴jar包: 
$SOLR_HOME/dist/solrj-libs  全部的jar 
$SOLR_HOME/dist/solr-solrj-<version>.jar   solr-solrj.jar 
若是是maven項目: 

web

Java代碼  收藏代碼sql

  1. <!-- https://mvnrepository.com/artifact/org.apache.solr/solr-solrj -->  shell

  2. <dependency>  數據庫

  3.     <groupId>org.apache.solr</groupId>  apache

  4.     <artifactId>solr-solrj</artifactId>  api

  5.     <version>6.1.0</version>  微信

  6. </dependency>  app



下面來看一段Solrj經過JDBC查詢示例:
 
框架

Java代碼  收藏代碼curl

  1. Connection con=null;  

  2.     Statement stmt=null;  

  3.     ResultSet rs=null;  

  4.     try{  

  5.         String collection="sql_search";    

  6.         String aggregationMode="facet";// facet or map_reduce  

  7.         //注意solr//:後面跟的是zk集羣地址,若是有chroot path還須要加上  

  8.         con=DriverManager.getConnection("jdbc:solr://192.168.1.184:2181/solr6?collection="+collection+"&aggregationMode="+aggregationMode+"&numWorkers=2");  

  9.         //檢索,排序,topN  

  10.         String sql1="select dtime  from big_search order by dtime desc limit 4 ";  

  11.         //多級分組,排序1  

  12.         String sql2="select t1,t2,t3 , count(*)  from big_search group by t1,t2 ,t3 order by count(*) desc limit 3  ";  

  13.         //分組,過濾,排序2          

  14.         String sql21="select t1, count(*)  from big_search group by t1 having count(*) > 2 order by count(*) desc    ";  

  15.         //去重  

  16.         String sql221="select distinct t3 from sql_search limit 2  ";  

  17.         //全文檢索查詢  

  18.         String sql15="select rowkey from big_search  where title='(你好 蘇州)' limit 4  ";  

  19.         //聚合函數  支持max,min,avg,sum,count  

  20.         String sql4="select count(*) from big_search  limit 2 ";  

  21.         //提取字段  

  22.         String sql3="select t1,t2 from big_search ";  

  23.         stmt = con.createStatement();//編譯sql  

  24.         rs = stmt.executeQuery(sql21);//執行sql  

  25.         ResultSetMetaData metaData = rs.getMetaData(); //獲取字段名元數據  

  26.         String line_space="\t"//格式化打印  

  27.         for(int i=1;i<=metaData.getColumnCount();i++){  

  28.             System.out.print(metaData.getColumnName(i)+line_space);//打印表頭  

  29.         }  

  30.         System.out.println();  

  31.         while(rs.next()) {//循環從遊標提取數據  

  32.             for(int i=1;i<=metaData.getColumnCount();i++){//遍歷列頭  

  33.                 System.out.print(rs.getString(metaData.getColumnName(i))+line_space);//格式化打印字段內容  

  34.             }  

  35.             System.out.println();  

  36.         }  

  37.         } finally {  

  38.             if(rs!=null){  

  39.         rs.close();  

  40.             }  

  41.             if(stmt!=null){  

  42.         stmt.close();  

  43.             }  

  44.             if(con!=null){  

  45.         con.close();  

  46.             }  

  47.         }  

  48.   

  49.     System.out.println("====end====");  




下面來看一段使用流式表達式查詢的操做,無須任何依賴,在Solr的Admin界面就能操做; 
圖中的代碼的是查詢solrcloud中每一個shard一條數據,而後總共返回3條數據,最後對3條數據,排序,取top1 



1374abdd-568d-39b1-80ae-41627761aa82.png




總結: 

(1)關於如何集成中文分詞IK或者Ansj 

單機版的solr,若是是IK,須要在 
solr\server\solr-webapp\webapp\WEB-INF目錄下,新建一個classes目錄,將其詞庫文件所有放進去
而後將IK的jar包,放入solr\server\solr-webapp\webapp\WEB-INF\lib下。 

若是是Ansj,則須要將Ansj相關的jar包放入solr\server\solr-webapp\webapp\WEB-INF\lib下, 
而後將Ansj的library的目錄,放在solr\server中。 

在SolrCloud集羣模式中,是須要把某個collection下的conf下的全部文件,上傳到zookeeper上的,全部的shard都會 
從zk上加載所需的文件,包括一些詞庫的配置,這個時候,放在本地磁盤上的詞庫,是不會被識別的,因此你須要把上傳的詞庫 
文件一塊兒上傳到zk上,而後配置合理的路徑便可,任何文件的更新,都須要reload整個collection才能更新(solr6以前是須要relaod全部的shard), 
不然,發生的改動不會被識別。 


(2)理解map_reduce  和 facet兩種聚合模式 

A: map_reduce  模式,支持任意多字段的聚合查詢,不受限制,但性能稍低 
測試環境5個shard+3個副本 
測試數據,必須大於6(shard+1)條數據,不然會報錯 

可測 group+distict 


2390d380-ede6-313e-8ae2-b094fdedb409.png


執行流程以下: 

6292ce4e-d8c9-3b35-b2bb-c6e4ab1aaca3.png 



B:facet   模式,使用Solr原生的Json Facet Api 操做,受必定索引的限制,但性能較高 
只要求有shard,有數據,便可測試,利用solr原生的Facet api進行聚合
 

ca7e96ff-8bb8-321c-a9ea-da5a3debf329.png



(3)理解DocValue對SQL查詢的影響 
大部分狀況下在Solr中的SQL查詢,是須要加上limit關鍵詞的,若是你不加,要麼你就會發現,你的查詢可能會莫名其妙的報錯 
這個時候問題的緣由大部分是跟DocValue有關的, Solr6要求,全部不加的limit查詢的字段,必須所有是DocValue激活的 
字段,若是任何一個不是,那麼查詢確定報錯,若是你加了limit關鍵詞,要麼能夠不受這個限制影響。 

至於爲何必需要激活DocValue字段才能進行all字段提取查詢,主要目的仍是爲了性能,想了解DocValue能夠 
參考散仙以前的文章:http://qindongliang.iteye.com/blog/2297280 



(4) Solr6支持客戶端工具(像MySQL的NaviCat)查詢連接: 

A:DbVisualizer  (C/S客戶端GUI) 
B:SQuirreL SQL (C/S客戶端GUI) 
C:Apache Zeppelin  (B/S web端) 
大部分都須要配置添加有關的solr的jdbc的jar包,具體安裝方式參考文末連接 

(5)除了JDBC方式支持SQL查詢,http方式也是能夠的: 

Shell代碼  收藏代碼

  1. [search@h1 ~]$ cat sql.sh   

  2. ## 聚合模式 map_reduce  

  3. #curl --data-urlencode 'stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10'  http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=map_reduce  

  4. ## 聚合模式 facet  

  5. curl --data-urlencode 'stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10'  http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=facet  

  6. [search@h1 ~]$ sh sql.sh   

  7. {"result-set":{"docs":[  

  8. {"count(*)":4,"t1":"01"},  

  9. {"count(*)":2,"t1":"02"},  

  10. {"count(*)":2,"t1":"03"},  

  11. {"count(*)":2,"t1":"04"},  

  12. {"count(*)":2,"t1":"05"},  

  13. {"EOF":true,"RESPONSE_TIME":84}]}}  




官網文檔: 
https://cwiki.apache.org/confluence/display/solr/Streaming+Expressions 
https://cwiki.apache.org/confluence/display/solr/Parallel+SQL+Interface#ParallelSQLInterface-SQLClientsandDatabaseVisualizationTools 



有什麼問題能夠掃碼關注微信公衆號:我是攻城師(woshigcs),在後臺留言諮詢。 
技術債不能欠,健康債更不能欠, 求道之路,與君同行。 

3214000f-5633-3c17-a3d7-83ebda9aebff.jpg

相關文章
相關標籤/搜索