數據倉庫,英文名稱爲 Data Warehouse,可簡寫爲DW或DWH。數據倉庫,是爲企業全部級別的決策制定過程,提供全部類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而建立。 爲須要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。
數據倉庫並非數據的最終目的地,而是爲數據最終的目的地最好準備。這些準備包括對數據的清洗、轉義、分類、重組、合併、拆分、統計等等。
實驗需三臺虛擬機,其中一臺要8G內存,其餘兩臺最低要4G內存。
本次實驗涉及到大數據生態組件中的 hadoop-2.7.2, zookeeper-3.4.10, flume-1.7.0, kafka_2.11-0.11.0.2, hive-1.2.1, tez-0.9.1, MySQL-5.6.24, sqoop-1.4.6等。服務器
服務器名稱 | 子服務 | 服務器hadoop151 | 服務器hadoop152 | 服務器hadoop153 |
---|---|---|---|---|
HDFS | NameNode | √ | ||
DataNode | √ | √ | √ | |
SecondaryNameNode | √ | |||
Yarn | NodeManager | √ | √ | √ |
ResourceManager | √ | |||
Zookeeper | Zookeeper server | √ | √ | √ |
Flume(採集日誌) | Flume | √ | √ | |
Kafka | Kafka | √ | √ | √ |
Flume(消費kafka) | Flume | √ | ||
Hive | Hive | √ | ||
MySQL | MySQL | √ | ||
Sqoop | Sqoop | √ |