數據倉庫架構的技術選型

目前主流公司應用比較廣泛的大數據數據倉庫架構: 增加了以下內容: 數據採集:採用Flume收集日誌,採用Sqoop將RDBMS以及NoSQL中的數據同步到HDFS上 消息系統:可以加入Kafka防止數據丟失 實時計算:實時計算使用Spark Streaming消費Kafka中收集的日誌數據,實時計算結果大多保存在Redis中 機器學習:使用了Spark MLlib提供的機器學習算法 多維分析OLA
相關文章
相關標籤/搜索