Hive數據傾斜問題

什麼是數據傾斜 MapReduce中,相同Key的Value都給了一個reduce,如果個別key數據較多,而其他key的較少,就出現了數據傾斜。有的map很快,有的reduce很慢。Hive執行是分階段的.Map的處理數據量差異取決於上一個stage的reduce輸出,如果在map端,有的job很快,有的很慢,就出現了數據傾斜。 數據傾斜的情況 1)連接join: a)小表與大表,小表key集中
相關文章
相關標籤/搜索