spark2原理分析-RDD的shuffle簡介

概述 本文介紹RDD的Shuffle原理,並分析shuffle過程的實現。 RDD Shuffle簡介 spark的某些操作會觸發被稱爲shuffle的事件。shuffle是Spark重新分配數據的機制,它可以對數據進行分組,該操作可以跨不同分區。該操作通常會在不同的執行器(executor)和主機之間複製數據,這使shuffle成爲複雜且非常消耗資源的操作。 Shuffle背景 爲了理解shuf
相關文章
相關標籤/搜索