MapReduce的運行原理

MapReduce的執行步驟: 每個Map上創建一個split數據,默認和block大小相同,每一個split都會由一個map task進行處理,從block中讀取出每一行的數據會變成一個個的鍵值對<K,V>。 接下來,讀取出來的數據都會進入內存緩衝區,在進入緩衝區之前,每一條數據都會被打上標籤,這個過程叫做分區,由分區器來完成,默認的分區器是HashPartitioner,然後數據就會被讀取到緩
相關文章
相關標籤/搜索