Spark知識 之 Partition

本文是Spark知識總結帖,講述Spark Partition相關內容。   1 什麼是Partition  Spark RDD 是一種分佈式的數據集,由於數據量很大,因此要它被切分並存儲在各個結點的分區當中。從而當我們對RDD進行操作時,實際上是對每個分區中的數據並行操作。 圖一:數據如何被分區並存儲到各個結點                                          
相關文章
相關標籤/搜索