Hadoop中的數據壓縮

一丶數據壓縮的策略和原則 壓縮策略和原則: 壓縮是提高Hadoop運行效率的一種優化策略。 通過對Mapper、Reducer運行過程的數據進行壓縮,以減少磁盤IO,提高MR程序運行速度。 注意:採用壓縮技術減少了磁盤IO,但同時增加了CPU運算負擔。所以,壓縮特性運用得當能提高性能,但運用不當也可能降低性能。 壓縮基本原則: (1)運算密集型的job,少用壓縮 (2)IO密集型的job,多用壓縮
相關文章
相關標籤/搜索