使用python構建基於hadoop的mapreduce日誌分析平臺

時間 2021-01-12

原文原文鏈接

流量比較大的日誌要是直接寫入Hadoop對Namenode負載過大，所以入庫前合併，可以把各個節點的日誌湊併成一個文件寫入HDFS。根據情況定期合成，寫入到hdfs裏面。咱們看看日誌的大小，200G的dns日誌文件，我壓縮到了18G，要是用awk perl當然也可以，但是處理速度肯定沒有分佈式那樣的給力。 Hadoop Streaming原理 mapper和reducer會從標準輸入中讀取用戶

>>阅读原文<<