Hadoop存儲成本管理的具體方法

Hadoop存儲成本管理的具體方法 |0x00 數據壓縮 數據壓縮是在以Hadoop爲主要構架的數據倉庫中常見的數據處理方式,一方面適當的壓縮數據,能夠有效的提高MR計算任務時數據傳輸的效率,另一方面由於HDFS自身的三備份策略,導致數據存在比較大的冗餘,通過壓縮能夠降低存儲的成本。 在進行數據壓縮前,需要考慮如下幾方面的事情: 所採用的的壓縮算法是否支持文件的分片讀取,是否支持MR的並行讀取;
相關文章
相關標籤/搜索