MapReduce編程一

一、設置job的基礎屬性apache

Job job = new Job();  
job.setJarByClass(***.class);  //要執行的類
job.setJobName(「job name」);    //做業的名字
job.setNumReduce(2);           //reduce的數目app

二、設置Map與Reudce的類oop

job.setMappgerClass(*.class);  //map類
job.setReduceClass(*.class);   //reduce類orm

三、設置Job的輸入輸出格式hadoop

void    setInputFormatClass(Class<? extends InputFormat> cls)  
void    setOutputFormatClass(Class<? extends OutputFormat> cls)input

前者默認是TextInputFormat,後者是FileOutputFormat。it

四、設置Job的輸入輸出路徑io

當輸入輸出是文件時,須要指定路徑。table

InputFormat:  
static void    addInputPath(JobConf conf, Path path)   
FileOutputFormat:  
static void    setOutputPath(Job job, Path outputDir)class

當輸入格式是其它類型時,則須要指定相應的屬性,如Gora的DataSource。

五、設置map與reduce的輸出鍵值類型
主要有如下4個類

void    setOutputKeyClass(Class<?> theClass)  
void    setOutputValueClass(Class<?> theClass)   
void    setMapOutputKeyClass(Class<?> theClass)  
void    setMapOutputValueClass(Class<?> theClass)

(1)前面2個方法設置整個job的輸出,即reduce的輸出。默認狀況下,map的輸出類型與reduce一致,若兩者不一致,則須要經過後面2個方法來指定map的輸出類型。
(2)關於輸入類型的說明:reduce的輸入類型由output的輸出類型決定。map的輸入類型由輸入格式決定,如輸入格式是FileInputFormat,則輸入KV類型爲LongWriterable與Text。

六、運行程序

job.waitForCompletion()

咱們還能夠設置combine類和partition類

job.setCombinerClass(Combine.class);
job.setPartitionerClass(MyPartition.class);

 附帶一張圖:

完整例子

package org.jediael.hadoopdemo.maxtemperature;  
  
import org.apache.hadoop.fs.Path;  
import org.apache.hadoop.io.IntWritable;  
import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Job;  
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
  
public class MaxTemperature {  
    public static void main(String[] args) throws Exception {  
        if (args.length != 2) {  
            System.err  
                    .println("Usage: MaxTemperature <input path> <output path>");  
            System.exit(-1);  
        }  
        //一、設置job的基礎屬性  
        Job job = new Job();  
        job.setJarByClass(MaxTemperature.class);  
        job.setJobName("Max temperature");  
  
        //二、設置Map與Reudce的類  
        job.setMapperClass(MaxTemperatureMapper.class);  
        job.setReducerClass(MaxTemperatureReducer.class);  
          
        //四、設置map與reduce的輸出鍵值類型  
        job.setOutputKeyClass(Text.class);  
        job.setOutputValueClass(IntWritable.class);  
          
        //五、設置輸入輸出路徑  
        FileInputFormat.addInputPath(job, new Path(args[0]));  
        FileOutputFormat.setOutputPath(job, new Path(args[1]));  
          
        //六、運行程序  
        System.exit(job.waitForCompletion(true) ? 0 : 1);  
    }  
}

這個是驅動程序,接着咱們要分別實現相關的類

相關文章
相關標籤/搜索