Hive解決數據傾斜問題及Hive優化

時間 2019-12-07

標籤 hive 解決數據傾斜問題優化欄目 Hadoop 简体版

原文原文鏈接

數據傾斜概述簡單來講數據傾斜就是數據的key的分化嚴重不均，形成一部分數據不少，一部分數據不多的狀況。舉個word count的入門例子，在map階段造成了（「hello」,1）的形式，而後在reduce階段進行value統計，算出"hello"出現的次數，假設word count的文本大小是100G，其中70G都是"hello",剩下的30G是其它單詞，那就會造成70G的數據量交給一個redu

>>阅读原文<<