Spark分區

一、Spark爲什麼要分區     分區概念:分區是RDD內部並行計算的一個計算單元,RDD的數據集在邏輯上被劃分爲多個分片,每一個分片稱爲分區,分區的格式決定了並行計算的粒度,而每個分區的數值計算都是在一個任務中進行的,因此任務的個數,也是由RDD(準確來說是作業最後一個RDD)的分區數決定。     爲什麼要分區,這個借用別人的一段話來闡述。    數據分區,在分佈式集羣裏,網絡通信的代價很大
相關文章
相關標籤/搜索