Spark 分區(Partition)的認識、理解和應用

一、什麼是分區以及爲什麼要分區? Spark RDD 是一種分佈式的數據集,由於數據量很大,因此要它被切分並存儲在各個結點的分區當中。從而當我們對RDD進行操作時,實際上是對每個分區中的數據並行操作。 圖一:數據如何被分區並存儲到各個結點                                                  圖二:RDD、Partition以及task的關係 圖三:分區
相關文章
相關標籤/搜索