Spark分區方式詳解

時間 2020-05-08

標籤 spark 分區方式詳解欄目 Spark 简体版

原文原文鏈接

1、Spark數據分區方式簡要在Spark中，RDD（Resilient Distributed Dataset）是其最基本的抽象數據集，其中每一個RDD是由若干個Partition組成。在Job運行期間，參與運算的Partition數據分佈在多臺機器的內存當中。這裏可將RDD當作一個很是大的數組，其中Partition是數組中的每一個元素，而且這些元素分佈在多臺機器中

>>阅读原文<<