Spark RDD分區知識總結

Spark RDD分區知識總結 1. RDD 1.1 RDD定義 RDD(Resilient Distributed Dataset)——彈性分佈式數據集,是Spark中最基本的數據抽象 不可變(只讀) 分區 自動容錯 位置感知調度 可伸縮 1.2 RDD屬性 (1)一組分區(Partition),即數據集的基本組成單位。對於RDD來說,每個分區都會被一個計算任務處理,並決定並行計算的粒度。用戶可
相關文章
相關標籤/搜索