Spark的Shuffle是怎麼回事

​ Shuffle的中文含義是混洗,官方定義是:一種讓數據從新分佈以使得某些數據被放在同一分區裏的一種機制。Shuffle的過程當中,存在着大量的網絡消耗傳輸數據,會在磁盤上產生大量的中間文件,在平時的工做中瞭解shuffle的運行機制能幫助咱們寫出更優秀的代碼。此篇文章從shuffle的含義開始講起,按照spark中shuffle的幾中不一樣運行機制進行了解析,並最終附上了一些shuffle調優
相關文章
相關標籤/搜索