spark2.x-ShuffleManager

概述 大多數Spark作業的性能主要就是消耗在了shuffle環節,因爲該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操作。因此,如果要讓作業的性能更上一層樓,就有必要對shuffle過程進行調優。但是也必須提醒大家的是,影響一個Spark作業性能的因素,主要還是代碼開發、資源參數以及數據傾斜,shuffle調優只能在整個Spark的性能調優中佔到一小部分而已。因此大家務必把握住調優的基本原則
相關文章
相關標籤/搜索