Spark編程模型經典解析(一)

從Hadoop  MR到Spark 回顧hadoop -MR計算過程 1. 文件 通過 split,split的原因:MapReduce是並行計算的,如果一個文件很大,500G的大小,做不了分片,那如何並行運行。所以要分成很多的split,每一個split交給一個map來處理。 2.  Map運行處理之後,存儲在內存裏面,內存滿了,會刷到磁盤上形成文件。 3. 然後爲了確定map處理的結果交給哪一
相關文章
相關標籤/搜索