mapreduce作業優化-MultithreadedMapRunner

  最近日誌解析框架新接入一種日誌, 這些原始日誌是經過加密的, mr程序解析時需要先解密再解析,實際解析過程中發先原始日誌量並不大(30W), 但解析花費時間較長, 經分析,是解密操作比較耗CPU時間, 想到的一種解決方案是在日誌採集階段將日誌分散到多個小文件,這樣可以充分利用多map並行的優勢,但缺點也很明顯, HDFS系統將存在很多小文件,對namenode造成負擔,同時這個方案需要修改日誌
相關文章
相關標籤/搜索