MapReduce:shuffle簡單理解

如上圖: Mapreduce shuffle流程, 從1到6是: 1、map會把寫進來的數據寫入緩存,寫入過程中,會根據key值做一次partition,partition的方式可以自定義 2、之後,會進行一次排序,sort by key,方便後續的合併 3、map階段的combine,會根據key,進行數據數據合併,例如: 4、合併後,數據開始溢寫到磁盤,在map階段完成前,會對溢寫文件根據pa
相關文章
相關標籤/搜索