sparkRDD

基本概念        RDD(Resilient Distributed Dataset),彈性分佈式數據集,是Spark數據處理的核心抽象        屬性:分區列表、分區函數、RDD依賴、分片函數(只有kv格式數RDD纔有,兩種函數HashPatitioner和RangePartitioner,不是kv格式的RDD則是none。可選)、數據就近原則(數據在哪裏就在哪個節點執行任務或最近的節
相關文章
相關標籤/搜索