SparkSQL

時間 2020-12-26

標籤 sparkSQL 简体版

原文原文鏈接

目錄 SparkSQL的shuffle過程 SparkSQL結構化數據 SparkSQL解析 SparkSQL的shuffle過程 Spark SQL的核心是把已有的RDD，帶上Schema信息，然後註冊成類似sql裏的」Table」，對其進行sql查詢。這裏面主要分兩部分，一是生成SchemaRD，二是執行查詢。如果是spark-hive項目，那麼讀取metadata信息作爲Schema、讀取

>>阅读原文<<