大數據裏常見的幾種壓縮格式壓縮

離線處理流程: 爲什麼使用壓縮 當使用MapReduce經過ETL後落到HDFS上時,若使用普通文本格式TXT ,那一般副本數爲三,若一個副本爲500T,500*3=1500? 顯然是不現實的。 壓縮的第一個好處,就是節省我們的磁盤空間,提升磁盤利用率,第二個就是加速我們網絡的傳輸。 缺點:需要佔用cpu資源進行壓縮與解壓,且,壓縮與解壓需要時間。 !!!所以如果整個集羣cpu利用率非常高,不要開
相關文章
相關標籤/搜索