使用Spark SQL讀取Hive上的數據

Spark SQL主要目的是使得用戶能夠在Spark上使用SQL,其數據源既能夠是RDD,也能夠是外部的數據源(好比Parquet、Hive、Json等)。Spark SQL的其中一個分支就是Spark on Hive,也就是使用Hive中HQL的解析、邏輯執行計劃翻譯、執行計劃優化等邏輯,能夠近似認爲僅將物理執行計劃從MR做業替換成了Spark做業。本文就是來介紹如何經過Spark SQL來讀取
相關文章
相關標籤/搜索