spark學習-spark shuffle操做的兩個特色

spark shuffle操做的兩個特色:緩存 1.spark中bucket緩存默認是100KB,寫入數據達到刷新到磁盤的閾值後,就會將數據一點一點刷新到磁盤。若是內存緩存太小,會發生過多的磁盤IO操做,須要根據實際的業務狀況進行優化。函數 2.MapReduce必須將全部的數據都寫入本地磁盤文件後,才能啓動reduce操做,來拉取數據,由於MapReduce要實現默認的根據key的排序,須要寫完
相關文章
相關標籤/搜索