Spark編程模型經典解析(一)

從Hadoop  MR到Spark編程 回顧hadoop -MR計算過程 1. 文件 經過 split,split的緣由:MapReduce是並行計算的,若是一個文件很大,500G的大小,作不了分片,那如何並行運行。因此要分紅不少的split,每個split交給一個map來處理。緩存 2.  Map運行處理以後,存儲在內存裏面,內存滿了,會刷到磁盤上造成文件。網絡 3. 而後爲了肯定map處理的結
相關文章
相關標籤/搜索