Hadoop Streaming框架使用(二)

上一篇文章介紹了Streaming的各類參數,本文具體介紹使用方法。html

提交hadoop任務示例: app

  $HADOOP_HOME/bin/hadoop streaming \oop

-input /user/test/input -output /user/test/output \ htm

-mapper 「mymapper.sh」 -reducer 「myreducer.sh」 \blog

-file/home/work/mymapper.sh \排序

-file /home/work/myreducer.sh \hadoop

-jobconf mapred.job.name=」file-demo」 ci

上面的命令提交了一個hadoop任務,輸出和輸入分別爲 /user/test/output 和/user/test/input。 map程序爲 mymapper.sh,reduce程序爲myreducer.sh。這裏須要注意必定要將這兩個文件用-file分發到集羣的節點上。最後一行指定了任務的名字。資源

 

還有一些較爲複雜的使用,好比須要指定任務個數等,能夠使用get

-jobconf mapred.job.map.capacity=m -jobconf mapred.job.reduce.capacity=n 

上面的命令設置最多同時運行m個map任務,n個reduce任務,若是m或n爲0或者沒有指定,則對應的capacity沒有限制,默認配置就是0沒有限制。建議在運行做業時都設置map和reduce capacity,防止做業佔用過多資源。 

 

固然,這裏只是簡單介紹了最基本的用法,hadoop streaming還有不少高級使用方法,可一些很強大的排序指定功能,這裏再也不過多介紹,有須要的朋友能夠給我留言進行詢問,只要我遇到過的問題必定給出解決方案。若是運行時出現錯誤,能夠參見個人另外一篇文章——hadoop錯誤碼

from:http://www.cnblogs.com/luchen927/archive/2012/01/16/2323479.html

相關文章
相關標籤/搜索