RDD相關概念

RDD概念: RDD 定義爲彈性分佈式數據集,包含了只讀的、分區的、分佈式計算的概念;RDD是個類 1、一個數據分區的列表(hdfs的所有數據塊的位置信息,保存在RDD類成員變量Array中) 2、保存了數據塊上面的計算方法,這個計算方法會應用到每一個數據塊 3、一個對其他RDD的依賴,是一個集合,spark就是通過這種依賴關係,像流水一樣處理我們的數據    當分區的數據計算失敗,只需要根據流水
相關文章
相關標籤/搜索