架構層面調優-壓縮詳解

壓縮在mapreduce的使用位置緩存

1.使用壓縮事後的數據做爲map的輸入編碼

沒有使用後壓縮,默認狀況下一個blk對應一個split,若是沒壓縮,文件很大,那麼map的數量就會增多
map的解壓縮不用棉編碼層面靠考慮

2.map的輸出到reduce的輸入中間過程spa

map輸出的數據從緩存中溢出存儲在磁盤中能夠使用壓縮
reduce獲取數據進行解壓縮

3.reduce處理後的結果code

reduce輸出結果後也能進行壓縮,進行節約空間

壓縮比:壓縮比越高,壓縮的文件越小,可是壓縮/解壓縮速度就下降,二者成反比blog

壓縮/解壓縮速度it

位置1的時候壓縮須要考慮可否使用分片?map

位置2中間壓縮須要快im

位置3輸出壓縮須要節約空間技術

 不一樣的場景須要使用不一樣的壓縮技術,快,慢,分片須要如何進行壓縮技術選型數據

相關文章
相關標籤/搜索