《Spark技術內幕》第七章Shuffle模塊詳解

Shuffle模塊詳解 Shuffle翻譯成中文就是洗牌,之所以需要Shuffle,還是因爲具有某種共同特徵的一類數據需要最終匯聚(aggregate)到一個計算節點上進行計算。這些數據分佈在各個存儲節點上,並且由不同節點的計算單元處理。 一般來說,每個Task處理的數據可以完全載入內存(如果不能,可以減小每個Partition的大小),因此Task可以做到在內存中計算。 除非非常複雜的計算邏輯,
相關文章
相關標籤/搜索