數倉技術架構

數據同步工具 datax 也有集羣模式了,現在性能應該還好。 sqoop 就是調度了map任務 集羣加機器了記得要在數據庫那邊加入白名單 Flume 幾十上百臺日志服務器的話,直接往hdfs上寫也不現實,一般會做兩層flume,第二層放個三兩臺再往hdfs寫。 一般會後面布kafka,實時離線都從kafka消費,保證數據統一。 調度系統 Oozie 與hadoop、hive、spark有版本依賴關
相關文章
相關標籤/搜索