暢聊Spark(一)簡介

爲什麼要有Spark?         上面這張圖是Hadoop的MapReduce編程模型的計算概要流程圖。       每一次Map完了都把數據放到HDFS,Reduce階段時在在從HDFS拉取,這個效率太慢了,而且如果有10個MapReduce的任務都是連續性呢?       第一個MapReduce的程序計算完,第二個MapReduce程序是依賴第一個,第三個是依賴第二個和第一個的部分數據
相關文章
相關標籤/搜索