大數據05--圖示wordcount shuffle過程

時間 2021-07-14

原文原文鏈接

本文主要以wordcount爲例詳細闡述shuffle的實現過程我們知道，HDFS裏的文件是分塊存放在Datanode上面的，而我們寫的mapper程序也是跑在各個節點上的。這裏就涉及到一個問題，哪一個節點上的mapper讀哪一些節點上的文件塊呢？hadoop會自動將這個文件分片（split），得到好多split，這每一個split放到一個節點的一個mapper裏面去讀。然後在每一臺有mappe

>>阅读原文<<