Spark的Shuffle的四種機制以及參數調優

(1)shuffle概述: 大多數spark做業的性能主要就是消耗了shuffle過程,由於該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操做。所以,若是要讓做業的性能更上一層樓,就有必要對shuffle過程進行調優。可是也必須提醒你們的是,影響一個Spark做業性能的因素,主要仍是代碼開發、資源參數以及數據傾斜,shuffle調優只能在整個Spark的性能調優中佔到一小部分而已。web st
相關文章
相關標籤/搜索