桔妹導讀:Presto在滴滴內部發展三年,已經成爲滴滴內部Ad-Hoc和Hive SQL加速的首選引擎。目前服務6K+用戶,天天讀取2PB ~ 3PB HDFS數據,處理30萬億~35萬億條記錄,爲了承接業務及豐富使用場景,滴滴Presto須要解決穩定性、易用性、性能、成本等諸多問題。咱們在3年多的時間裏,作了大量優化和二次開發,積攢了很是豐富的經驗。本文分享了滴滴對Presto引擎的改進和優化,同時也提供了大量穩定性建設經驗。html
-
徹底基於內存的並行計算 -
流水線 -
本地化計算 -
動態編譯執行計劃 -
當心使用內存和數據結構 -
GC控制 -
無容錯
-
Hive SQL查詢加速 -
數據平臺Ad-Hoc查詢 -
報表(BI報表、自定義報表) -
活動營銷 -
數據質量檢測 -
資產管理 -
固定數據產品
-
PrestoSQL社區活躍度更高,PR和用戶問題可以及時回覆 -
PrestoDB主要主力仍是Facebook維護,以其內部需求爲主 -
PrestoDB將來方向主要是ETL相關的,咱們有Spark兜底,ETL功能依賴Spark、Hive
-
隱式類型轉換 -
語義兼容 -
語法兼容 -
支持Hive視圖 -
Parquet HDFS文件讀取支持 -
大量UDF支持 -
其餘
-
latency高,QPS較低 -
不能查實時數據,若是有實時數據需求,須要再構建一條實時數據鏈路,增長了系統的複雜性 -
要想得到極限性能,必須與HDFS DataNode 混部,且DataNode使用高級硬件,有自建HDFS的需求,增長了運維的負擔
-
結合 Druid 的預聚合、計算能力(過濾聚合)、Cache能力,提高Presto性能(RT與QPS) -
讓 Presto 具有查詢 Druid 實時數據能力 -
爲Druid提供全面的SQL能力支持,擴展Druid數據的應用場景 -
經過Druid Broker獲取Druid元數據信息 -
從Druid Historical直接獲取數據 -
實現了Limit下推、Filter下推、Project下推及Agg下推
-
沒法劃分多個Split,查詢性能差 -
請求查詢Broker,以後再查詢Historical,多一次網絡通訊 -
對於一些場景,如大量Scan場景,會致使Broker OOM -
Project及Agg下推支持不完善
-
租戶與權限 -
與內部Hadoop打通,使用HDFS SIMPLE協議作認證 -
使用Ranger作鑑權,解析SQL使Presto擁有將列信息傳遞給下游的能力,提供用戶名+數據庫名/表名/列名,四元組的鑑權能力,同時提供多表同時鑑權的能力 -
用戶指定用戶名作鑑權和認證,大帳號用於讀寫HDFS數據 -
支持視圖、表別名鑑權
-
語法拓展 -
支持add partition -
支持數字開頭的表 -
支持數字開頭的字段
-
特性加強 -
insert數據時,將插入數據的總行數寫入HMS,爲業務方提供毫秒級的元數據感知能力 -
支持查詢進度滾動更新,提高了用戶體驗 -
支持查詢能夠指定優先級,爲用戶不一樣等級的業務提供了優先級控制的能力 -
修改通訊協議,支持業務方能夠傳達自定義信息,知足了用戶的日誌審計須要等 -
支持DeprecatedLzoTextInputFormat格式 -
支持讀HDFS Parquet文件路徑
-
經過Presto Plugin實現日誌審計功能 -
經過JMX獲取引擎指標將監控信息寫入Ganglia -
將日誌審計採集到HDFS和ES; 統一接入運維監控體系,將全部指標發到 Kafka; -
Presto UI改進: 能夠查看Worker信息,能夠查看Worker死活信息
在Presto交流社區,Presto的穩定性問題困擾了不少Presto使用者,包括Coordinator和Worker掛掉,集羣運行一段時間後查詢性能變慢等。咱們在解決這些問題時積累了不少經驗,這裏說下解決思路和方法。前端
根據職責劃分,Presto分爲Coordinator和Worker模塊,Coordinator主要負責SQL解析、生成查詢計劃、Split調度及查詢狀態管理等,因此當Coordinator遇到OOM或者Coredump時,獲取元信息及生成Splits是重點懷疑的地方。而內存問題,推薦使用MAT分析具體緣由。以下圖是經過MAT分析,得出開啓了FileSystem Cache,內存泄漏致使OOM。web
-
使用HDFS FileSystem Cache致使內存泄漏,解決方法禁止FileSystem Cache,後續Presto本身維護了FileSystem Cache -
Jetty致使堆外內存泄漏,緣由是Gzip致使了堆外內存泄漏,升級Jetty版本解決 -
Splits太多,無可用端口,TIME_WAIT過高,修改TCP參數解決 -
JVM Coredump,顯示"unable to create new native thread",經過修改pid_max及max_map_count解決 -
Presto內核Bug,查詢失敗的SQL太多,致使Coordinator內存泄漏,社區已修復
-
經過Resource Group控制業務併發,防止嚴重超賣 -
經過JVM調優,解決一些常見內存問題,如Young GC Exhausted -
善用MAT工具,發現內存瓶頸
-
Sys load太高,致使業務查詢性能影響很大,研究jvm原理,經過參數(-XX:PerMethodRecompilationCutoff=10000 及 -XX:PerBytecodeRecompilationCutoff=10000)解決,也可升級最新JVM解決 -
Worker查詢hang住問題,緣由HDFS客戶端存在bug,當Presto與HDFS混部署,數據和客戶端在同一臺機器上時,短路讀時一直wait鎖,致使查詢Hang住超時,Hadoop社區已解決 -
超賣致使Worker Young GC Exhausted,優化GC參數,如設置-XX:G1ReservePercent=25 及 -XX:InitiatingHeapOccupancyPercent=15 -
ORC太大,致使Presto讀取ORC Stripe Statistics出現OOM,解決方法是限制ProtoBuf報文大小,同時協助業務方合理數據治理 -
修改Presto內存管理邏輯,優化Kill策略,保障當內存不夠時,Presto Worker不會OOM,只須要將大查詢Kill掉,後續熔斷機制會改成基於JVM,相似ES的熔斷器,好比95% JVM 內存時,Kill掉最大SQL
-
某業務集羣進行了JVM調優,將Ref Proc由單線程改成並行執行,普通查詢由30S~1分鐘下降爲3-4S,性能提高10倍+ -
ORC數據優化,將指定string字段添加了布隆過濾器,查詢性能提高20-30%,針對一些業務作了調優 -
數據治理和小文件合併,某業務方查詢性能由20S下降爲10S,性能提高一倍,且查詢性能穩定 -
ORC格式性能優化,查詢耗時減小5% -
分區裁剪優化,解決指定分區但獲取全部分區元信息問題,減小了HMS的壓力 -
下推優化,實現了Limit、Filter、Project、Agg下推到存儲層
-
Presto on Alluxio查詢性能提高35%,可是內存佔用和性能提高不成正比,因此咱們放棄了Presto on Alluxio,後續可能會對一些性能要求敏感的業務使用 -
Presto on Carbondata是在18年8月份測試的,當時的版本,Carbondata穩定性較差,性能沒有明顯優點,一些場景ORC更快,因此咱們沒有再繼續跟蹤調研Presto on Carbondata。 由於滴滴有專門維護Druid的團隊,因此咱們對接了Presto on Druid,一些場景性能提高4~5倍,後續咱們會更多關注Presto on Clickhouse及Presto on Elasticsearch
經過以上工做,滴滴Presto逐漸接入公司各大數據平臺,併成爲了公司首選Ad-Hoc查詢引擎及Hive SQL加速引擎,下圖能夠看到某產品接入後的性能提高:算法
上圖能夠看到大約2018年10月該平臺開始接入Presto,查詢耗時TP50性能提高了10+倍,由400S下降到31S。且在任務數逐漸增加的狀況下,查詢耗時保證穩定不變。數據庫
而高性能集羣,咱們作了不少穩定性和性能優化工做,保證了平均查詢時間小於2S。以下圖所示:數組
可是若是看最近一個月的CPU使用率會發現,平均CPU使用率比較低,且波峯在白天10~18點,晚上基本上沒有查詢,CPU使用率不到5%。以下圖所示:性能優化
因此,解決晚上資源浪費問題是咱們從此須要解決的難題。微信
同時,爲了避免與開源社區脫節,咱們打算升級PrestoDB 0.215到PrestoSQL 340版本,屆時會把咱們的Presto on Druid代碼開源出來,回饋社區。網絡
▬
滴滴Presto引擎負責人,負責帶領引擎團隊深刻Presto內核,解決在海量數據規模下Presto遇到的穩定性、性能、成本方面的問題。搜索引擎及OLAP引擎愛好者,公衆號:FFCompute
關於團隊數據結構
▬
滴滴大數據架構部 OLAP & 檢索平臺組負責以 Elasticsearch、Clickhouse、Presto 及 Druid 爲表明的 OLAP 引擎的內核級極致優化,爲滴滴各個產品線提供穩定可靠的 PB 級海量數據的實時數據分析、日誌檢索、監控及即席查詢服務。
博聞強識,招賢納士,滴滴用廣闊的舞臺,在這裏,等待你!
掃描了解更多崗位
本文分享自微信公衆號 - 滴滴技術(didi_tech)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。