Hadoop Streaming二次排序

時間 2019-12-09

原文原文鏈接

因爲Hadoop機器內存不足，因此須要把數據mapred進來跑。oop 這樣，就須要，同一個key下的輸入數據是有序的，即：對於keyA的數據，要求data1先來，以後data2再來……。因此須要對data進行二次排序。.net -D stream.num.map.output.key.fields=2 blog 這個，能夠設置在map以後，進行partition時，使用前兩個tab的數據進行排序

>>阅读原文<<