利用MapReduce框架,編程實現數據去重與排序。

利用MapReduce框架,編程實現數據去重與排序。 熟練掌握map-reduce工作流程; 核心思想:分而治之,把大的數據集分成許多小數據塊,在多臺機器上並行處理。 透徹理解map-reduce工作流程中每個「節點」的功能。 Input: 輸入文件的存儲位置 Split: 大數據集拆分成小數據集。 Mapper:<1> 把輸入目錄下的文件進行邏輯切片,每個切片由一個MapTask處理。 <2>
相關文章
相關標籤/搜索