Hadoop-Python實現Hadoop Streaming分組和二次排序

分組(partition) Hadoop streaming框架默認狀況下會以’/t’做爲分隔符,將每行第一個’/t’以前的部分做爲key,其他內容做爲value, 若是沒有’/t’分隔符,則整行做爲key;這個key/tvalue對又做爲該map對應的reduce的輸入。 -D stream.map.output.field.separator 指定分割key分隔符,默認是/t -D strea
相關文章
相關標籤/搜索