[spark 面試]Shuffle的性能調優問題

1、Shuffle原理和運行機制回顧  2、Shuffle性能調優 上面的流程中:  性能問題1:Mapper端的Cache:如果Cache設置的大小不恰當,可能產生大量磁盤的訪問操作,因爲要頻繁地往本地磁盤寫數據。  性能問題2:Reducer端的Business Logic運行的空間,如果說空間分配不夠,業務邏輯運行的時候被迫把數據Spill到磁盤上面。一方面造成了業務邏輯處理的時候需要讀寫磁
相關文章
相關標籤/搜索