pig數據導入性能優化(map端)

導言:衆所周知,MapReduce的數據輸入是以HDFS的數據塊大小爲基本單位的,加入某集羣HDFS的block的大小爲128MB。那麼,當咱們要處理的數據大小是在120MB左右,map端就不會出現因爲數據分佈不均勻而致使的數據傾斜。web 下面介紹怎麼控制map端的輸出在120MB左右的方法,該方法對於日誌的導入有很大的幫助,可讓map的輸出均勻的輸出。sql 本人所處理的原始數據是大量的日誌,
相關文章
相關標籤/搜索