SPARK簡述(二)

RDD:彈性分佈式數據集,是隻讀的分區記錄集合;Spark最核心最精髓的部分,spark將所有數據都抽象成RDD。RDD是一個能夠讓用戶可以準確的將中間結果數據持久化到內存中的一個可容錯的並行數據結構,可以控制(RDD數據集) 分區,優化數據存儲,並且有一組豐富的操作集可以操作這份數據。 RDD的獲取:從共享的文件系統獲取(如:HDFS);通過已存在的RDD轉換。 RDD操作:作用於RDD上的Op
相關文章
相關標籤/搜索