SparkSQL的執行和優化過程

SparkSQL是基於RDD的,但是其執行效率又比RDD高,其原因就是因爲SparkSQL的優化器–Catalyst RDD執行效率低是因爲RDD無法進行優化,其本身不具備數據scheme約束信息,無法得知數據的具體信息,然而SparkSQL一般用於結構化和半結構化數據,所以具備數據的scheme信息,可以對其進行優化處理 一:SparkSQL的API SparkSQL的API有三種 sql Da
相關文章
相關標籤/搜索