SparkSQL的執行和優化過程

時間 2021-01-08

標籤 SparkSQL優化简体版

原文原文鏈接

SparkSQL是基於RDD的,但是其執行效率又比RDD高,其原因就是因爲SparkSQL的優化器–Catalyst RDD執行效率低是因爲RDD無法進行優化,其本身不具備數據scheme約束信息,無法得知數據的具體信息,然而SparkSQL一般用於結構化和半結構化數據,所以具備數據的scheme信息,可以對其進行優化處理一:SparkSQL的API SparkSQL的API有三種 sql Da

>>阅读原文<<