Spark SQL整合hive

時間 2021-07-12

原文原文鏈接

爲什麼要進行整合？由於hive原生是基於MapReduce的，導致其查詢耗時較長。爲了保留Hive的架構解決方案，並優化查詢速度，採用SparkSql與hive整合(spark on hive)，通過SparkSql讀取hive中表的元數據，把HiveHQL底層採用MapReduce處理任務導致性能慢的特點，改爲更加強大的Spark引擎來進行相應的計算處理。環境搭建準備 1、搭建hadoop

>>阅读原文<<