Hive優化(3)之隨機數避免數據傾斜

發生數據傾斜時,一般的現象是:sql 任務進度長時間維持在99%(或100%),查看任務監控頁面,發現只有少許(1個或幾個)reduce子任務未完成。 查看未完成的子任務,能夠看到本地讀寫數據量積累很是大,一般超過10GB能夠認定爲發生數據傾斜。 數據傾斜通常是因爲代碼中的join或group by或distinct的key分佈不均導致的,大量經驗代表數據傾斜的緣由是人爲的建表疏忽或業務能夠規避的
相關文章
相關標籤/搜索