Spark分區器探索(HashPartitioner、RangePartitioner)

以Spark2.X爲例,其支持Hash、Range以及自定義分區器。 分區器決定了rdd數據在分佈式運算時的分區個數以及數據在shuffle中發往的分區號,而分區的個數決定了reduce的個數;一樣的shuffle過程當中若分區器定義或選擇不合適將大大增長數據傾斜的風險。綜上,分區器的重要性不言而喻。web 首先要知道 (1)Key-Value類型RDD纔有分區器,非Key-Value類型RDD的
相關文章
相關標籤/搜索