實戰案例hive-on-spark:醫療大數據-數據倉庫ETL

2.6.1 方案的選擇 總結: 1)Spark定位於內存計算框架:分佈式計算RDD、實時計算spark stream、結構化查詢saprkSQL、數據挖掘spark.ML 2)類比hadoop生態:分佈式存儲hdfs、數據倉庫hive(meta、數據存儲基於hdfs)、yarn分佈式資源調度、nosql數據庫hbase 3)綜合優化方案:sparkSQL作多數據源IO接入,RDD作數據清理、轉換、
相關文章
相關標籤/搜索