flume+hadoop+hive 大數據採集處理

介紹:整個離線分析的整體架構就是使用Flume從FTP服務器上採集日誌文件,並存儲在Hadoop HDFS文件系統上,再接着用Hadoop的mapreduce清洗日誌文件,最後使用HIVE構建數據倉庫作離線分析。 大概怎麼部署畫了張圖,我是一共使用了四臺服務器,若是不須要這麼多能夠本身簡化一下,將flume和數據處理都部署到hadoop-master上面,這樣只須要兩臺便可 1、hadoop部署準
相關文章
相關標籤/搜索