Spark SQL在100TB上的自適應執行實踐

Spark SQL是Apache Spark最普遍使用的一個組件,它提供了很是友好的接口來分佈式處理結構化數據,在不少應用領域都有成功的生產實踐,可是在超大規模集羣和數據集上,Spark SQL仍然遇到很多易用性和可擴展性的挑戰。爲了應對這些挑戰,英特爾大數據技術團隊和百度大數據基礎架構部工程師在Spark 社區版本的基礎上,改進並實現了自適應執行引擎。本文首先討論Spark SQL在大規模數據集
相關文章
相關標籤/搜索