Spark之RDD解析

一、RDD定義 分佈式彈性數據集,只讀的分區集合,不同分區可以被保存在不同的節點上,從而進行並行計算 二、RDD操作 RDD通常通過Hadoop上的文件,即HDFS文件或者Hive表,來進行創建;有時也可以通過應用程序中的集合來創建. 轉換 指定RDD之間的相互依賴關係 粗粒度的數據轉換操作 適合對數據集執行相同操作的批處理式應用,而不適合用於需要異步、細粒度狀態的應用 比如map、filter、
相關文章
相關標籤/搜索