Spark SQL在100TB上的自適應執行實踐

時間 2019-12-05

原文原文鏈接

Spark SQL是Apache Spark最普遍使用的一個組件，它提供了很是友好的接口來分佈式處理結構化數據，在不少應用領域都有成功的生產實踐，可是在超大規模集羣和數據集上，Spark SQL仍然遇到很多易用性和可擴展性的挑戰。爲了應對這些挑戰，英特爾大數據技術團隊和百度大數據基礎架構部工程師在Spark 社區版本的基礎上，改進並實現了自適應執行引擎。本文首先討論Spark SQL在大規模數據集

>>阅读原文<<