Spark基礎 DAG

      爲什麼使用spark的原因是早期的編程模式MapReduce缺乏對數據共享的高效元語,會造成磁盤I/O 以及序列號等開銷,spark提出了統一的編程抽象---彈性分佈式數據集(RDD),該模型可以令並行計算階段間高效地進行數據共享。spark處理數據時,會將計算轉化爲一個有向無環圖(DAG)的任務集,RDD能夠有效的恢復DAG中故障和慢節點執行的任務,並且RDD提供一種基於粗粒度變換的
相關文章
相關標籤/搜索