用Pig處理高壓縮比數據

最近遇到了一個神奇的問題。我有一個5M的數據,用pig處理很是慢。分析mapreduce日誌,發現是第一個處理數據的mapper很是慢。爲何呢?我一直找不到緣由,直到我偶然把這5M數據的生成方式改成非壓縮後,我當即明白了:這5M的數據非壓縮狀況下有900M!java 也便是說,當第一個mapper把數據加載內存作解壓後,一個5M的數據變成了900M。實際上在java對象中,磁盤上的900M加載的內
相關文章
相關標籤/搜索