Hadoop Streaming二次排序

因爲Hadoop機器內存不足,因此須要把數據mapred進來跑。oop 這樣,就須要,同一個key下的輸入數據是有序的,即:對於keyA的數據,要求data1先來,以後data2再來……。因此須要對data進行二次排序。.net -D stream.num.map.output.key.fields=2 blog 這個,能夠設置在map以後,進行partition時,使用前兩個tab的數據進行排序
相關文章
相關標籤/搜索