數據倉庫系列(18):存儲成本管理

(一)數據壓縮 數據壓縮是在以Hadoop爲主要構架的數據倉庫中常見的數據處理方式,一方面適當的壓縮數據,可以有效的提升MR計算任務時數據傳輸的效率,另外一方面因爲HDFS自身的三備份策略,致使數據存在比較大的冗餘,經過壓縮可以下降存儲的成本。算法 在進行數據壓縮前,須要考慮以下幾方面的事情:app 1. 所採用的的壓縮算法是否支持文件的分片讀取,是否支持MR的並行讀取;框架 2. 壓縮算法的I/
相關文章
相關標籤/搜索