Spark算子執行流程詳解之六

26.coalesce coalesce顧名思義爲合併,就是把多個分區的RDD合併成少許分區的RDD,這樣能夠減小任務調度的時間,可是請記住:合併以後不能保證結果RDD中的每一個分區的記錄數量是均衡的,由於合併的時候並無考慮合併前每一個分區的記錄數,合併只會減小RDD的分區個數,所以並不能利用它來解決數據傾斜的問題。java def coalesce(numPartitions: Int, shu
相關文章
相關標籤/搜索