八天學會hadoop (3)

流量統計實戰   先複習一波hadoop shuffle的過程 1.map task 過程中會把數據寫入到內存中,在spill寫入之前,會先進行二次排序,首先根據數據所屬的partition進行排序,然後每個partition中的數據再按key來排序。 2. 接着會進行combine過程(如果設置了combiner了的話) combine本身也是一個reducer 會對寫入到磁盤的數據處理,期望減
相關文章
相關標籤/搜索