【Spark】RDD的設計和運行原理

Spark的核心是建立在統一的抽象RDD之上,使得Spark的各個組件可以無縫進行集成,在同一個應用程序中完成大數據計算任務。 RDD設計背景 在實際應用中,存在許多迭代式算法(比如機器學習、圖算法等)和交互式數據挖掘工具,這些應用場景的共同之處是,不同計算階段之間會重用中間結果,即一個階段的輸出結果會作爲下一個階段的輸入。 但是,目前的MapReduce框架都是把中間結果寫入到HDFS中,帶來了
相關文章
相關標籤/搜索