MaxCompute 中的Code Generation技術簡介

時間 2019-12-24

標籤 maxcompute code generation 技術簡介简体版

原文原文鏈接

摘要：前言在《數據庫系統中的Code Generation技術介紹》中，咱們簡單介紹了一下Code Generation技術及其在大規模OLAP系統，特別是大規模分佈式OLAP系統中的重要性。MaxCompute採用了Code Generation技術來提升計算效率。在MaxCompute數據庫

前言網絡

在《數據庫系統中的Code Generation技術介紹》中，咱們簡單介紹了一下Code Generation技術及其在大規模OLAP系統，特別是大規模分佈式OLAP系統中的重要性。MaxCompute採用了Code Generation技術來提升計算效率。在MaxCompute2.0中，咱們又引入了基於LLVM的JIT(Just In Time) Code Generation技術。結合向量化的執行引擎，基於SIMD技術的執行效率優化等方式，較之MaxCompute 1.0，MaxCompute 2.0在性能方便有了較大的提高，具體能夠參照《MaxCompute2.0性能評測：更強大、更高效之上的更快速》。分佈式

MaxCompute 1.0中的Code Generation函數

如上圖，MaxCompute 1.0採用了靜態的Code Generation技術，工做主要在MaxCompute控制集羣中名爲「Executor」的角色上完成。其流程以下：性能

用戶的SQL語句在Executor上通過Parsing和Optimization以後，生成對應的查詢計劃。
Executor上的Code Generation模塊將查詢計劃翻譯成一個名爲「mapred.cpp」的C++源文件。如上圖所示，查詢計劃中的每個Task（就是MaxCompute做業中的一個Stage）會被翻譯成C++中的一個Class, 而全部的處理邏輯被生成到該Class的Process()方法當中。
Executor調用g++將「mapred.cpp」編譯成一個動態庫，並將其下發到計算集羣中的每個Worker上。
被調度起來的Worker會Load該動態庫，調用相應的Process()方法以完成計算邏輯。

能夠看到，利用Code Generation技術，對於每個SQL來講執行時代碼都是通過定製的，所以執行效率較傳統的Volcano Model更好。可是，其中也有一些問題。優化

g++ 編譯仍是比較消耗CPU/內存的，特別是當優化選項開到O2以上的時候。特別是用戶SQL比較複雜的狀況下（有些SQL在SELECT語句中有多達上千個表達式，或者表達式的嵌套計算特別深刻），生成的C++源文件也比較大，編譯更加耗時。在實際生產中，咱們見過編譯耗時數十秒，消耗上G內存的狀況。
生成的動態庫在控制集羣和計算集羣之間傳輸也會有帶來必定的網絡開銷。由於這個動態庫的與SQL邏輯緊密相關的，所以沒法複用，所以每一個SQL都會經歷編譯，下發的過程，在任務提交比較頻繁的狀況下，控制集羣的穩定性會收到必定挑戰。
由於較高的編譯時開銷，這種Code Generation的方式在處理複雜的語句加中小數據規模查詢的場景，好比service mode下，overhead太大。

MaxCompute 2.0中的Code Generation翻譯

MaxCompute 2.0採用了基於LLVM的JIT Code Generation技術。所謂JIT，就是程序在運行期間根據須要動態生成相應的機器指令。這樣，整個Code Generation的工做由控制集羣移交到了真正執行計算邏輯的計算集羣各個Worker上。其流程以下：指針

和MaxCompute 1.0中同樣，用戶的SQL語句在Executor上通過Parsing和Optimization以後，生成對應的查詢計劃。
查詢計劃直接被髮送到計算集羣各個Worker上。
MaxCompute 2.0執行引擎的Code Generation模塊Load查詢計劃，並利用LLVM C++ API生成相應的機器碼。Code Generation模塊返回一個函數指針做爲調用的入口。
Worker經過調用Code Generation模塊返回的函數指針以完成計算邏輯。

與MaxCompute 1.0相比，MaxCompute 2.0中Code Generation速度有明顯提高。在1.0中，一個SQL的平均Code Generation耗時大概在2-3s左右，這個時間在2.0中被縮短到100 - 200ms。由於在2.0中Code Generation都在計算集羣的Worker上完成，所以相對來講減輕了控制集羣的壓力，有助於MaxCompute控制集羣的穩定性。此外，由於MaxCompute 2.0的執行引擎是複用的（不由於SQL不一樣而不同），所以無需像1.0中同樣，在控制集羣與計算集羣之間傳輸動態庫，下降了控制集羣與計算機羣之間的網絡負載。blog

後續工做內存

目前，MaxCompute 2.0 的執行引擎仍是以Volcano Model爲基礎。只是在Volcano Model中各個算子之間以Batch模式傳遞數據，而且以列式執行的方式提升執行速度。基於LLVM的JIT Code Generation如今主要用在表達式計算，Streamline等熱點部分。以後，咱們準備嘗試Full Stage的Code Generation, 相似http://www.hyper-db.com/。有興趣的同窗能夠看看這個：http://www.vldb.org/pvldb/vol4/p539-neumann.pdf。附件中的PDF結合了《數據庫系統中的Code Generation技術介紹》和本文的部份內容，有興趣的同窗能夠做爲參考。

原文連接

閱讀更多幹貨好文，請關注掃描如下二維碼：