Hadoop Streaming框架使用（二）

時間 2019-11-08

標籤 hadoop streaming 框架使用欄目 Hadoop 简体版

原文原文鏈接

上一篇文章介紹了Streaming的各類參數，本文具體介紹使用方法。html

提交hadoop任務示例： app

$HADOOP_HOME/bin/hadoop streaming \oop

-input /user/test/input -output /user/test/output \ htm

-mapper 「mymapper.sh」 -reducer 「myreducer.sh」 \blog

-file/home/work/mymapper.sh \排序

-file /home/work/myreducer.sh \hadoop

-jobconf mapred.job.name=」file-demo」 ci

上面的命令提交了一個hadoop任務，輸出和輸入分別爲 /user/test/output 和/user/test/input。 map程序爲 mymapper.sh，reduce程序爲myreducer.sh。這裏須要注意必定要將這兩個文件用-file分發到集羣的節點上。最後一行指定了任務的名字。資源

還有一些較爲複雜的使用，好比須要指定任務個數等，能夠使用get

-jobconf mapred.job.map.capacity=m -jobconf mapred.job.reduce.capacity=n

上面的命令設置最多同時運行m個map任務，n個reduce任務，若是m或n爲0或者沒有指定，則對應的capacity沒有限制，默認配置就是0沒有限制。建議在運行做業時都設置map和reduce capacity，防止做業佔用過多資源。

固然，這裏只是簡單介紹了最基本的用法，hadoop streaming還有不少高級使用方法，可一些很強大的排序指定功能，這裏再也不過多介紹，有須要的朋友能夠給我留言進行詢問，只要我遇到過的問題必定給出解決方案。若是運行時出現錯誤，能夠參見個人另外一篇文章——hadoop錯誤碼

from：http://www.cnblogs.com/luchen927/archive/2012/01/16/2323479.html