[筆記] 用單節點HIVE+SPARK執行ETL任務

時間 2019-12-06

標籤筆記節點 hive+spark hive spark 執行 etl 任務欄目 Hadoop 简体版

原文原文鏈接

動機自己是java碼農. 運維的Hadoop小集羣上硬盤故障已經成爲天天平常, 有各類hdfs故障. 最嚴重一次,文件無法從datanode同步到namenode的狀況,致使集羣徹底不可用.html 目前不少ELT任務都是用Spark和Hive實現的從kafka導入數據到HDFS,清洗後導入數據庫. ETL代碼裏可能徹底看不到Hdfs, 大部分都是Hive的sql操做或者Spark的rdd操做,

>>阅读原文<<