Spark的Shuffle的四種機制以及參數調優

(1)shuffle概述: 大多數spark作業的性能主要就是消耗了shuffle過程,因爲該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操作。因此,如果要讓作業的性能更上一層樓,就有必要對shuffle過程進行調優。但是也必須提醒大家的是,影響一個Spark作業性能的因素,主要還是代碼開發、資源參數以及數據傾斜,shuffle調優只能在整個Spark的性能調優中佔到一小部分而已。 stage
相關文章
相關標籤/搜索