Spark編程模型經典解析（一）

時間 2021-01-20

原文原文鏈接

從Hadoop MR到Spark 回顧hadoop -MR計算過程 1. 文件通過 split，split的原因：MapReduce是並行計算的，如果一個文件很大，500G的大小，做不了分片，那如何並行運行。所以要分成很多的split，每一個split交給一個map來處理。 2. Map運行處理之後，存儲在內存裏面，內存滿了，會刷到磁盤上形成文件。 3. 然後爲了確定map處理的結果交給哪一

>>阅读原文<<