題目:海量數據查詢
開頭:
1.自我介紹;
2.題目切入:
什麼是海量數據查詢?(海量數據,快速,符合要求)
幾個經常使用場景(搜索引擎,百度;話單查詢;影像平臺,高鐵)
3.展現目錄:架構,案例,平臺規劃
4.架構,經常使用需求的切入:
高併發qps;
全文搜索(模糊查詢,相似sql like;近義詞;有PDF,WORD,文本等解析能力);
固定查詢(固定字段,可組合查);
靈活查詢(任意字段,隨意組合查);
非結構化數據存儲(小文件,半結構,非結構數據,圖片視頻之類)
5.hyperbase介紹
來源:基於hbase,hbase基於Google bigtable;
定義:列式,key-value,分佈式數據庫;
特性:穩定健壯;多個運維工具針對集羣維護;完善的sql支持(inceptor);
超高併發支持;支持多種索引;高速入庫;高效分析;非結構化支持。
6.search介紹
1.擅長作靈活查詢,全文搜索;
2.比solr,es優勢:作了大量工做,單節點(單實例,2T*12)容量增長到15-20T左右;
冷熱數據隔離;提升壓縮比,壓縮速率;高速檢索分析;
堆外內存管理:解釋單節點容量能達到20T問題;管理jvm最大30G,索引+segment佔用內存,把堆內存解放
放在堆外,擴展了內存,提升了IO效率,減小了GC次數;
支持sql2003標準;
3.另外的工做:基於時空地理信息的高效處理;
7.關鍵字對應的解決方案
高併發:hyperbase,search(1w,300);
全文搜索:search;
靈活查詢:search;
固定查詢:hyperbase>search
非結構存儲:hyperbase
8.場景組合:
高併發+固定查詢:櫃面查詢,話單查詢,歷史記錄查詢,交易記錄查詢;
注意點:
hbase和search不適合作join(join需求只適合小表10W如下,返回1W之內);
hbase和search都不適合作聚合和排序,除非返回數據較少
9.案例解決方案
1.挑戰:持續增加數據,數據類型多樣
2.解決方案:TDH
3.效果:硬件成本1/3;千億級數據秒級返回;PB級別數據的存儲和檢索;時空分析秒級響應
4.框圖:主線:數據源(結構化,非結構化)組件(hyperbase,search),功能,平臺,場景應用
10.檢索場景評估:
1.hyperbase:裸容量=原始數據量*(1+20%膨脹)*3副本/3(壓縮率);
2.search:裸容量=原始數據量*(1+100%膨脹)*(1+1)副本;
11.hyperbase性能指標:
1.單個regionserver建議不超過4000*7=28T的存儲容量;
2.bulkload入庫:20-30M/s;
3.API入庫:10M/s;
4.索引入庫:帶1個索引,入庫性能下降20%;
5.rebuild時間:10M/S/機器;
12.search 性能指標:
1.查詢:ms級別;
2.併發:上限300qps;
3.rebuild時間:search不開副本1W/tps,開副本5000/tps;
4.search處理上限:單實例15T,開源6Tsql