Spark Shuffle操做

什麼是Spark Shuffle? 在Spark中,數據一般不會跨分區分佈,以知足特定操做的須要。在計算期間,單個任務將對單個分區進行操做——所以,要組織單個reduceByKey 的計算任務要執行的全部數據,Spark須要執行一個all-to-all操做。它必須從全部分區中讀取全部鍵的全部值,而後將全部分區的值放在一塊兒計算每一個鍵的最終結果——這稱爲shuffle。web Spark中的某些操
相關文章
相關標籤/搜索