MapReduce的運行原理

時間 2020-12-25

標籤 Hadoop 欄目 Hadoop 简体版

原文原文鏈接

MapReduce的執行步驟：每個Map上創建一個split數據，默認和block大小相同，每一個split都會由一個map task進行處理，從block中讀取出每一行的數據會變成一個個的鍵值對<K,V>。接下來，讀取出來的數據都會進入內存緩衝區，在進入緩衝區之前，每一條數據都會被打上標籤，這個過程叫做分區，由分區器來完成，默認的分區器是HashPartitioner，然後數據就會被讀取到緩

>>阅读原文<<