使用python構建基於hadoop的mapreduce日誌分析平臺

流量比較大的日誌要是直接寫入Hadoop對Namenode負載過大,所以入庫前合併,可以把各個節點的日誌湊併成一個文件寫入HDFS。 根據情況定期合成,寫入到hdfs裏面。 咱們看看日誌的大小,200G的dns日誌文件,我壓縮到了18G,要是用awk perl當然也可以,但是處理速度肯定沒有分佈式那樣的給力。 Hadoop Streaming原理 mapper和reducer會從標準輸入中讀取用戶
相關文章
相關標籤/搜索