大數據 : Hadoop reduce階段

Mapreduce中由於sort的存在,MapTask和ReduceTask直接是工作流的架構。而不是數據流的架構。在MapTask尚未結束,其輸出結果尚未排序及合併前,ReduceTask是又有數據輸入的,因此即使ReduceTask已經創建也只能睡眠等待MapTask完成。從而可以從MapTask節點獲取數據。一個MapTask最終的數據輸出是一個合併的spill文件,可以通過Web地址訪問。
相關文章
相關標籤/搜索