Spark學習筆記2——RDD編程

1.RDD設計背景 在實際應用中,存在許多迭代式算法(好比機器學習、圖算法等)和交互式數據挖掘工具,這些應用場景的共同之處是,不一樣計算階段之間會重用中間結果,即一個階段的輸出結果會做爲下一個階段的輸入。可是,目前的MapReduce框架都是把中間結果寫入到HDFS中,帶來了大量的數據複製、磁盤IO和序列化開銷。雖然,相似Pregel等圖計算框架也是將結果保存在內存當中,可是,這些框架只能支持一些
相關文章
相關標籤/搜索