python 實現Hadoop的partitioner和二次排序

咱們知道,一個典型的Map-Reduce過程包 括:Input->Map->Partition->Reduce->Output。python Partition負責把Map任務輸出的中間結果 按key分發給不一樣的Reduce任務進行處理。c++ Hadoop 提供了一個很是實用的partitioner類KeyFieldBasedPartitioner,經過配置相應的參數就可使用。經過 KeyFi
相關文章
相關標籤/搜索