Spark(八)———— troubleshooting控制

一、控制shuffle reduce端緩衝大小以免OOM java map端的task是不斷的輸出數據的,數據量多是很大的。web 可是,其實reduce端的task,並非等到map端task將屬於本身的那份數據所有寫入磁盤文件以後,再去拉取的。map端寫一點數據,reduce端task就會拉取一小部分數據,當即進行後面的聚合、算子函數的應用。sql 每次reduece可以拉取多少數據,就由buf
相關文章
相關標籤/搜索