spark的分區器hashpartitioner、RangePartitioner,分佈式排序原理

spark大多數算子使用的都是默認分區器HashPartitioner,HashPartitioner會對數據的key進行 key.hascode%numpartitions 計算,得到的數值會放到對應的分區中,這樣能較爲平衡的分配數據到partition。 RangePartitioner: 它是在排序算子中會用到的分區器,比如sortbykey、sortby、orderby等。該分區器先對輸入
相關文章
相關標籤/搜索