shuffle機制

  • map的數量不是基於blk大小決定的;
  • 基於中間抽象概念,叫切片;
  • 一個切片對應一個map進程;
  • 是一個邏輯概念;
  • 大文件,一個切片對應一個blk便可,對於小文件,能夠對應多個blk,即便去其餘datanode獲取,那麼文件很小,不會影響太多時間傳輸;

 

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------node

shuffle

某一個具體的map task進程,輸出數據是如何緩存、中間是如何排序、如何分組的,而後轉發給reduce,這個過程就叫作shullfe過程。shuffle是分佈到整個集羣協做運行的緩存

partitions實現分組spa

buffer緩存blog

  1. inputSplit切片邏輯產生一個map 進程
  2. map結果輸出k-v形式
  3. k-v放到本身機器的內存中buffer,buffer緩衝區大小由配置文件指定,默認100M,
  4. buffer會把溢出數據放到磁盤中,分組,排序,合併(合併時候同一組還須要從新排序,由於每一個分組中的數據排序之間存在135,268)
  5. 給到reduce後,依然須要分組排序合併

MRAPPMaster的任務監控與調度機制

相關文章
相關標籤/搜索