配置hadoop,hive壓縮

hadoop的壓縮大體分爲三個步驟: 1.map階段: 壓縮文件通過split分片進入到maptask 所以壓縮文件必須是支持分片的(text,lzo[index]) 2.shuffle階段 mapshuffle落地到磁盤時,選用壓縮速度快的格式。 3.reduce output階段 分爲兩種場景: 一.reduce的輸出作爲下一個任務的輸入,此時壓縮文件最好採用支持分片的格式,或者保證outpu
相關文章
相關標籤/搜索