Hadoop實戰讀書筆記（8）

時間 2019-11-07

原文原文鏈接

什麼是開發數據集？node

一個流行的開發策略是爲生產環境中的大數據集創建一個較小的、抽樣的數據子集，稱爲開發數據集。這個開發數據集可能只有幾百兆字節。當你以單機或者僞分佈式模式編寫程序來處理它們時，你會發現開發週期很短，在本身的機器上運行程序也很方便，並且還能夠在獨立的環境中進行調試。數據庫

爲何選擇專利引用數據作測試？網絡

1、由於它們與你未來會遇到的大多數數據類型類似app

2、專利引用數據所構成的關係圖與網頁連接以及社會網絡圖可謂大同小異框架

3、專利發佈以時間爲序，有些特性相似於時間序列分佈式

4、每一個專利關聯到一我的 (發明人) 和一個位置 (發明人的國家)，你能夠將之視爲我的信息或地理數據oop

5、你能夠將這些數據視爲具備明確模式的普通數據庫關係，而格式上簡單地以逗號分開測試

數據集採用標準大數據

數據集採用標準的逗號分隔取值 (comma-separated values, CSV) 格式。spa

構建MapReduce程序的基礎模板

大多數MapReduce程序的編寫均可以簡單地依賴於一個模板及其變種，當撰寫一個新得MapReduce程序時，咱們一般會採用一個現有的MapReduce程序，並將其修改爲咱們所但願的樣子。

典型的Hadoop程序的模板

public class MyJob extends Configured implements Tool {

public static class MapClass extends MapReduceBase

implements Mapper<Text, Text, Text, Text> {

public void map (Text key, Text value,

OutputCollector<Text, Text> output,

Reporter reporter) throws IOException {

output.collect(value, key);

}

public static class Reduce extends MapReduceBase

implements Reducer<Text, Text, Text, Text> {

public void reduce(Text key, Iterator<Text> values,

OutputCollector<Text, Text> output,

Reporter reporter) throws IOException {

String csv = "";

while (values.hasNext()) {

if (csv.length() > 0) csv += ",";

csv += values.next().toString();

}

output.collect(key, new Text(csv));

}

public int run(String[] args) throws Exception {

Configuration conf = getConf();

JobConf job = new JobConf(conf, MyJob.class);

Path in = new Path(args[0]);

Path out = new Path(args[1]);

FileInputFormat.setInputPaths(job, in);

FileOutputFormat.setOutputPath(job, out);

job.setJobName("MyJob");

job.setMapperClass(MapClass.class);

job.setReducerClass(Reduce.class);

job.setInputFormat(KeyValueTextInputFormat.class);

job.setOutputFormat(TextOutputFormat.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(Text.class);

job.set("key.value.separator.in.input.line", ",");

JobClient.runJob(job);

return 0;

}

public static void main(String[] args) throws Exception {

int res = ToolRunner.run(new Configuration(), new MyJob(), args);

System.exit(res);

}

1、咱們習慣用單個類來完整地定義每一個MapReduce做業，這裏成爲MyJob類

2、Hadoop要求Mapper和Reducer必須是它們自身的靜態類，這些類很是小，模板將它們包含在MyJob類中做爲內部類，這樣作的好處是能夠把全部的東西放在一個文件內，簡化代碼管理

3、可是須要記住這些內部類是獨立的，一般不與MyJob類進行交互

4、在做業執行期間，採用不一樣JVM的各種節點複製並運行Mapper和Reducer，而其餘的做業類僅在客戶機上執行

解釋下run()方法

1、框架的核心在run()方法中，也稱爲driver

2、它實例化、配置並傳遞一個JobConf對象命名的做業給JobClient.runJob()以啓動MapReduce做業(反過來，JobClient類與JobTracker通訊讓該做業在集羣上啓動)

3、JobConf對象將保持做業運行所需的所有配置參數

4、Driver須要在做業中爲每一個做業定製基本參數，包括輸入路徑、輸出路徑、Mapper類和Reducer類

5、每一個做業能夠重置默認的做業屬性，例如，InputFormat、OutputFormat等，也能夠調用JobConf對象中的set()方法填充任意的配置參數

6、一旦傳遞JobConf對象到JobClient.runJob()，他就被視爲決定這個做業如何運行的藍本

關於driver的配置的一些說明

1、JobConf對象有許多參數，但咱們並不但願所有的參數都經過編寫driver來設置，能夠把Hadoop安裝時的配置文件做爲一個很好的起點

2、用戶可能但願在命令行啓動一個做業時傳遞額外的參數來改變做業配置

3、Driver能夠經過自定義一組命令並自行處理用戶參數，來支持用戶修改其中的一些配置

4、由於常常須要作這樣的任務，Hadoop框架便提供了ToolRunner、Tool和Configured來簡化其實現。

5、當它們在上面的MyJob框架中被同時使用時，這些類使得做業能夠理解用戶提供的被GenericOptionParser支持的選項

好比下面的命令：

bin/hadoop jar playgroup/MyJob.jar MyJob input/cite75-99.txt output

若是咱們運行做業僅僅是想看到mapper的輸出 (處於調試的目的), 能夠用選項 -D mapred.reduce.tasks=0將reducer的數目設置爲0

bin/hadoop jar playgroup/MyJob.jar MyJob -D mapred.reduce.tasks=0 input/cite75-99.txt output

經過使用ToolRunner、MyJob能夠自動支持一下選項
GenericOptionsParser支持的選項

選項	描述
-conf <configuration file>	指定一個配置文件
-D <property=value>	給JobConf屬性賦值
-fs <local \| namenode:port>	指定一個NameNode，能夠是 "local"
-jt <local \| jobtracker:port>	指定一個JobTracker
-files <list of files>	指定一個以逗號分隔的文件列表，用於MapReduce做業。這些文件自動地分佈到全部節點，使之可從本地獲取
-libjars <list of jars>	指定一個以逗號分隔的jar文件，使之包含在全部任務JVM的classpath中
-archives <list of archives>	指定一個以逗號分隔的存檔文件列表，使之能夠在全部任務節點上打開