Spark sql處理數據傾斜方法

定義與表現:sql 數據傾斜指的是因爲數據分區不均勻致使的,spark一部分tasks承擔的數據量太大,而致使總體運行時間過長的現象。通常出如今對大表的join過程當中,數據表現是大表的join key集中分佈在某幾個取值上,spark運行時的表現是job在某個或某些task的處理上停留時間過長(more than 0.5 hour)。通常分爲大表join大表,大表join小表;其中大表join小
相關文章
相關標籤/搜索