Spark中RDD DAG圖的創建

   RDD是spark計算的核心,是分佈式數據元素的集合,具備不可變、可分區、可被並行操做的特性,基礎的RDD類包含了經常使用的操做,若是須要特殊操做能夠繼承RDD基類進行本身的擴展,基礎預算包括map、filter、reduce等。   RDD包含5個主要特性:partition、針對split的算子、自身依賴哪些RDD、分區類型(默認hash)、split計算是的分區位置(例如計算HDFS
相關文章
相關標籤/搜索