八天學會hadoop (3)

時間 2021-01-15

原文原文鏈接

流量統計實戰先複習一波hadoop shuffle的過程 1.map task 過程中會把數據寫入到內存中，在spill寫入之前，會先進行二次排序，首先根據數據所屬的partition進行排序，然後每個partition中的數據再按key來排序。 2. 接着會進行combine過程(如果設置了combiner了的話) combine本身也是一個reducer 會對寫入到磁盤的數據處理，期望減

>>阅读原文<<