spark基礎概念及實驗

RDD 可伸縮不可改變分佈式集合,緩存進內存,每次轉換生成新的RDD,因此有依賴關係,丟失後可恢復;指定partition個數,分到cpu中,每個partition被一個任務處理,對於key-value的RDD存在分片函數,存在一個列表存儲分片的位置 對RDD的創建,轉換,返回;創建後不可改變,對外部的HDFS或List操作,轉換時生成新的RDD,直到action時才計算,返回driver程序或外
相關文章
相關標籤/搜索