hadoop集羣上運行自定義wordcount

時間 2019-12-24

標籤 hadoop 集羣運行自定義 wordcount 欄目 Hadoop 简体版

原文原文鏈接

hadoop jar /root/apps/wc.jar cn.itcast.bigdata.mr.wcdemo.WordcountDriver hdfs://mini1:9000/1.txt.copy hdfs://mini1:9000/out1java

1，編寫好wordcount程序，打成jar包放到服務器上，指定文件的輸入和輸出位置。服務器

public static void main(String[] args) throws Exception {
       Configuration conf = new Configuration();

       //是否運行爲本地模式，就是看這個參數值是否爲local，默認就是local
       /*conf.set("mapreduce.framework.name", "local");*/

       //本地模式運行mr程序時，輸入輸出的數據能夠在本地，也能夠在hdfs上
       //到底在哪裏，就看如下兩行配置你用哪行，默認就是file:///
       /*conf.set("fs.defaultFS", "hdfs://mini1:9000/");*/
       /*conf.set("fs.defaultFS", "file:///");*/



       //運行集羣模式，就是把程序提交到yarn中去運行
       //要想運行爲集羣模式，如下3個參數要指定爲集羣上的值
       conf.set("mapreduce.framework.name", "yarn");
       conf.set("yarn.resourcemanager.hostname", "mini1");
       conf.set("fs.defaultFS", "hdfs://mini1:9000/");
       Job job = Job.getInstance(conf);

//       job.setJar("c:/wc.jar");
       //指定本程序的jar包所在的本地路徑
       job.setJarByClass(WordcountDriver.class);

       //指定本業務job要使用的mapper/Reducer業務類
       job.setMapperClass(WordcountMapper.class);
       job.setReducerClass(WordcountReducer.class);

       //指定mapper輸出數據的kv類型
       job.setMapOutputKeyClass(Text.class);
       job.setMapOutputValueClass(IntWritable.class);

       //指定最終輸出的數據的kv類型
       job.setOutputKeyClass(Text.class);
       job.setOutputValueClass(IntWritable.class);

       //指定須要使用combiner，以及用哪一個類做爲combiner的邏輯
       /*job.setCombinerClass(WordcountCombiner.class);*/
       job.setCombinerClass(WordcountReducer.class);

       //若是不設置InputFormat，它默認用的是TextInputformat.class
       job.setInputFormatClass(CombineTextInputFormat.class);
       CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);
       CombineTextInputFormat.setMinInputSplitSize(job, 2097152);

       //指定job的輸入原始文件所在目錄
       FileInputFormat.setInputPaths(job, new Path(args[0]));
       //指定job的輸出結果所在目錄
       FileOutputFormat.setOutputPath(job, new Path(args[1]));

       //將job中配置的相關參數，以及job所用的java類所在的jar包，提交給yarn去運行
       /*job.submit();*/
       boolean res = job.waitForCompletion(true);
       System.exit(res?0:1);

   }app

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。