最近一段時間在看Hadoop The Definitive Guide, 3rd Edition.pdf,學習hadoop,我的想不能總看書,不實踐呀,因而準備搭建一套開發環境,果真遇到不少問題,最終調試出了運行結果,在此記錄。html
我實踐的過程比較坎坷,分別嘗試了centos,Ubuntu,windows下的Eclipse的hadoop插件,都加載成功,可是windows下的示例沒有運行成功。下面詳細說明java
參考Hadoop The Definitive Guide, 3rd Edition.pdf附錄A,先下載hadoop:http://hadoop.apache.org/common/releases.html,我下載的版本是2.6.4。解壓後放到/usr/local/下,我我的安裝的程序都在這個目錄下。可是java和Eclipse都是系統自帶的或者yum安裝,都不在這個目錄下。node
設置JAVA_HOME,java是系統自帶的,java的安裝你能夠去網上搜一下,或者按照下面的方法,也能夠找到git
zhang@oradt:/etc/alternatives$ java -version java version "1.7.0_95" OpenJDK Runtime Environment (IcedTea 2.6.4) (7u95-2.6.4-0ubuntu0.14.04.1) OpenJDK 64-Bit Server VM (build 24.95-b01, mixed mode) zhang@oradt:/etc/alternatives$ which java /usr/bin/java zhang@oradt:/etc/alternatives$ ll /usr/bin/java lrwxrwxrwx 1 root root 22 二月 16 16:42 /usr/bin/java -> /etc/alternatives/java* zhang@oradt:/etc/alternatives$ ll /etc/alternatives/java lrwxrwxrwx 1 root root 46 二月 16 16:42 /etc/alternatives/java -> /usr/lib/jvm/java-7-openjdk-amd64/jre/bin/java* zhang@oradt:/etc/alternatives$
修改~/.bashrc,設置環境變量,添加到最後便可,添加完成後,source一下生效github
export JAVA_HOME="/usr/lib/jvm/java-7-openjdk-amd64" export HADOOP_INSTALL="/usr/local/hadoop-2.6.4" export PATH=$PATH:$HADOOP_INSTALL/bin:$HADOOP_INSTALL/sbin
接下來你應該能夠運行hadoop了,先查一下版本,接下來按照附錄上的配置文件修改配置,調試過程當中,我做了一些修改,配置以下:
spring
core-site.xml,下面的9000端口在配置Eclipse的時候有用到。
shell
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost/</value> </property> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.80.202:9000/</value> </property> </configuration>
hdfs-site.xml
apache
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
mapred-site.xml
ubuntu
<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:8021</value> </property> </configuration>
yarn-site.xml
windows
<configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.resourcemanager.address</name> <value>localhost:8032</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce.shuffle</value> </property> </configuration>
按照資料上講的,ssh localhost的時候不能輸入密碼,因此要使用密鑰登陸,使用下面兩條命令;
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
下面是一系列的hadoop命令,格式化節點,啓動,關閉守護進程等等,我直接使用的yarn,未找到mapred.sh,聽說這個腳本用到客戶端了,我認識還比較淺,不清楚如何啓動這個本地的。
hadoop namenode -format start-dfs.sh start-yarn.sh stop-dfs.sh stop-yarn.sh
到此,你能夠查看一下監聽的各個端口,也能夠訪問網址localhost:50070和localhost:8088,查看運行狀態。
上面這個步驟在centos和Ubuntu下一次性配置都是成功的,比較簡單,可是尚未用到任何map,reduce實際運行的內容,下一步配置Eclipse開發環境纔是重點。
個人Eclipse也是系統自帶的,先找一下Eclipse的安裝目錄,若是經過yum和apt-get安裝的,通常在/usr/lib(64)下,實在找不到可使用find / -name plugins|grep eclipse查找。接下來就是把hadoop的Eclipse插件放到plugins目錄下。
網上應該能下到很多hadoop的eclipse插件版本,我認爲最權威的應該仍是git託管的那個,地址是:https://github.com/winghc/hadoop2x-eclipse-plugin,這裏邊不只有源碼,還有幾個編譯好的jar包可使用,可是最高版本是2.6.0,開始的時候我使用這個2.6.0版本的jar包,放入plugins文件夾,Eclipse不識別,我覺得是jar包不能兼容,或者編譯的版本不對,我嘗試了各類方法從新編譯這個jar包,可是都以失敗了結,不管實在centos,Ubuntu,仍是windows,緣由貌似是Eclipse少什麼包,出大量的編譯錯誤,所以,我嘗試從新安裝Eclipse。到最後,我也沒編譯經過這個插件。
安裝Eclipse的方法我也嘗試了幾種,最後成功的是apt-get,將hadoop-eclipse-plugin-2.6.0.jar放到plugins目錄,在命令行下使用eclipse命令啓動後,居然出現了DFS Locations,說明插件加載成功呀。
接下來按照網上的步驟, 配置hadoop,Window->Preference
Window->Show View -> Others -> MapReduce Tools ->Map/Reduce Locations
添加Locations
第一個端口使用的默認的50020,第二個是前面配置的9000,這個地方我使用的IP地址,見前面的配置,前面的fs.defaultFS配置爲localhost的話,在windows系統下鏈接192.168.80.202是不成功的。
若是正常的話,這個地方展開是沒有錯誤的。文件目錄結構是使用命令新建的,hdfs dfs -mkdir -p input,這個命令會在/user/你的用戶名/ 目錄下新建一個input目錄,hadoop fs -put intput1.txt input,這個命令是上傳文件到input目錄下。
到此環境算是搭建好了。
下面是新建項目了:
File->New->Others...->
添加map和reduce類
Mapper類注意父類的最後一個參數是IntWriteable類型
Reducer類注意第二個輸入參數和第四個輸出參數爲IntWriteable類型
最後再添加一個MaxTemperature類,這3個類的詳細內容,建議仍是讀讀書吧。
MaxTemperatureMapper.java
import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; public class MaxTemperatureMapper extends Mapper<LongWritable, Text, Text, IntWritable> { private static final int MISSING = 9999; //private static Logger logger = Logger.getLogger(MaxTemperatureMapper.class); public void map(LongWritable ikey, Text ivalue, Context context) throws IOException, InterruptedException { String line = ivalue.toString(); System.err.println(line); String year = line.substring(15, 19); int airTemperature; if (line.charAt(87) == '+') { // parseInt doesn't like leading plus signs airTemperature = Integer.parseInt(line.substring(88, 92)); } else { airTemperature = Integer.parseInt(line.substring(87, 92)); } String quality = line.substring(92, 93); if (airTemperature != MISSING && quality.matches("[01459]")) { context.write(new Text(year), new IntWritable(airTemperature)); }else{ context.write(new Text(year), new IntWritable(0)); } } }
MaxTemperatureReducer.java
import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; public class MaxTemperatureReducer extends Reducer<Text, IntWritable, Text, IntWritable> { public void reduce(Text _key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { // process values int maxValue = Integer.MIN_VALUE; for (IntWritable val : values) { System.err.println(val.get()); maxValue = Math.max(maxValue, val.get()); } context.write(_key, new IntWritable(maxValue)); } }
MaxTemperature.java
//import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class MaxTemperature { public static void main(String[] args) throws Exception { if (args.length != 2) { System.err.println("Usage: MaxTemperature <input path> <output path>"); System.exit(-1); } //Configuration conf = new Configuration(); Job job = Job.getInstance(); job.setJarByClass(MaxTemperature.class); job.setJobName("Max temperature"); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); job.setMapperClass(MaxTemperatureMapper.class); job.setReducerClass(MaxTemperatureReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); System.exit(job.waitForCompletion(true) ? 0 : 1); } }
代碼完成後,先準備一個測試文件吧,文件內容我給你弄個現成的,千萬注意,最後別有空行。
0067011990999991950051507004+51317+028783FM-12+017199999V0203201N00721004501CN0100001N9+00001+01391102681 0067011990999991950051507004+51317+028783FM-12+017199999V0203201N00721004501CN0100001N9+00021+01391102681 0067011990999991952051507004+51317+028783FM-12+017199999V0203201N00721004501CN0100001N9+00011+01391102681 0067011990999991953051507004+51317+028783FM-12+017199999V0203201N00721004501CN0100001N9+00031+01391102681
運行的時候須要設置下參數Run->Run Configuration:
我開始運行的時候,一個問題是出現了關於log4j相關的警告,第二個問題是程序運行結束後,只出現了output文件夾,可是沒有出現輸出文件。整了半天,果真是不能忽略警告呀,警告解決後,會出現日誌,錯誤天然就知道了呀。
解決日誌的問題方法網上有不少,就是在src目錄添加一個文件log4j.properties,內容以下(不限於這一種)
# Configure logging for testing: optionally with log file log4j.rootLogger=WARN, stdout # log4j.rootLogger=WARN, stdout, logfile log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n log4j.appender.logfile=org.apache.log4j.FileAppender log4j.appender.logfile.File=target/spring.log log4j.appender.logfile.layout=org.apache.log4j.PatternLayout log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
關鍵是你要在eclipse目錄下刷新一下,出現這個文件,不然無論用。因而我看到了日誌,緣由是text文件多了一個空行,致使String的截取方法出錯崩潰。
修正後,出現了正確的結果。