[筆記] 用單節點HIVE+SPARK執行ETL任務

動機 自己是java碼農. 運維的Hadoop小集羣上硬盤故障已經成爲天天平常, 有各類hdfs故障. 最嚴重一次,文件無法從datanode同步到namenode的狀況,致使集羣徹底不可用.html 目前不少ELT任務都是用Spark和Hive實現的從kafka導入數據到HDFS,清洗後導入數據庫. ETL代碼裏可能徹底看不到Hdfs, 大部分都是Hive的sql操做或者Spark的rdd操做,
相關文章
相關標籤/搜索