spark學習與理解

時間 2021-01-08

原文原文鏈接

One stack to rule them all！先來看一下：MapReduce的流程圖：首先從hdfs上取來數據，map任務加載進來解析成kv形式，通過inputformat格式進行解析，然後在環形緩衝區進行緩存排序，然後把排好序的文件分發到磁盤上面，通過partitions進行分片，然後把一片片已經內部排好序的分片傳到下一個reduce上去，然後merge合成同一個大文件，然後re

>>阅读原文<<