Spark項目實戰-troubleshooting之控制shuffle reduce端緩衝大小以避免OOM

一、reduce緩衝機制 如下,我們知道shuffle的map端task是不斷輸出數據的,數據量可能是很大的。 但是其實reduce端的task,並不是等到map端task將屬於自己的那份數據全部寫入磁盤文件之後再去拉取的。map端寫一點數據,reduce端task就會拉取一小部分數據,立即進行後面的聚合、算子函數的應用。每次reduece能夠拉取多少數據,就由緩衝buffer來決定。因爲拉取過來
相關文章
相關標籤/搜索