Hive解決數據傾斜問題及Hive優化

數據傾斜概述 簡單來講數據傾斜就是數據的key的分化嚴重不均,形成一部分數據不少,一部分數據不多的狀況。舉個word count的入門例子,在map階段造成了(「hello」,1)的形式,而後在reduce階段進行value統計,算出"hello"出現的次數,假設word count的文本大小是100G,其中70G都是"hello",剩下的30G是其它單詞,那就會造成70G的數據量交給一個redu
相關文章
相關標籤/搜索