Spark數據傾斜及解決方案

一.場景   1.絕大多數task執行得都非常快,但個別task執行極慢。比如,總共有100個task,97個task都在1s之內執行完了,但是剩餘的task卻要一兩分鐘。這種情況很常見。   2.原本能夠正常執行的Spark作業,某天突然報出OOM(內存溢出),觀察異常棧,是我們寫的業務代碼造成的。這種情況比較少見。 二.原理   在進行shuffle的時候,必須將各個節點上相同的key拉取到某
相關文章
相關標籤/搜索