使用Spark SQL讀取Hive上的數據

時間 2020-08-19

標籤使用 spark sql 讀取 hive 數據欄目 Spark 简体版

原文原文鏈接

Spark SQL主要目的是使得用戶能夠在Spark上使用SQL，其數據源既能夠是RDD，也能夠是外部的數據源（好比Parquet、Hive、Json等）。Spark SQL的其中一個分支就是Spark on Hive，也就是使用Hive中HQL的解析、邏輯執行計劃翻譯、執行計劃優化等邏輯，能夠近似認爲僅將物理執行計劃從MR做業替換成了Spark做業。本文就是來介紹如何經過Spark SQL來讀取

>>阅读原文<<