用Pig處理高壓縮比數據

時間 2019-12-06

標籤 pig 處理高壓縮比數據简体版

原文原文鏈接

最近遇到了一個神奇的問題。我有一個5M的數據，用pig處理很是慢。分析mapreduce日誌，發現是第一個處理數據的mapper很是慢。爲何呢？我一直找不到緣由，直到我偶然把這5M數據的生成方式改成非壓縮後，我當即明白了：這5M的數據非壓縮狀況下有900M！java 也便是說，當第一個mapper把數據加載內存作解壓後，一個5M的數據變成了900M。實際上在java對象中，磁盤上的900M加載的內

>>阅读原文<<