一、hadoop重啓不能找到namenode,可能緣由是沒有指定臨時存儲目錄,默認會存儲到root根目錄下的tmp文件中,重啓後會消失,因此在core-site.xml文件中加入臨時文件配置便可!node
二、hadoop格式化會詢問yes or no,yes大寫!oop
三、配置SSH時,每臺機器都須要配置本身的爲密碼,master與slaves互相持有其公鑰!性能
四、hadoop命令操做Java,優化
bin/hadoop fs -ls,spa
將文件放到hadoop文件下,bin/hadoop fs -put ../input ./inxml
刪除文件 bin/hadoop fs -rmr file,並無物理刪除,只是放在回收站中,裏面能夠設置時間閾值,超過閾值刪除。hadoop
恢復與清空 bin/hadoop fs -move fileinput
快照:源碼
五、修改hdfs源碼實現,namenode多點,這樣一個namenode宕機不至於形成損失!《HDFS高可用》it
六、HDFS思想是硬件設備壞掉是常態,解決這個的方法就是冗餘!
七、datanode一次寫入不能修改!
八、心跳機制:datanode向namenode按期發送信號,告訴namenode我還活着!
九、設置hadoop-classpath! hadoop環境變量!
十、分片問題,分片只能很是徹底接近block。
性能調優
十一、combiner 預處理過程,減小帶寬,傳輸速度快!能夠優化在此。
十二、處理小文件,將小文件合成大文件。
1三、減小map階段的輸出。
1四、maperd-site.xml設置JVM重用。
1五、若是maperd任務還未完成就出現故障,jobtracker會要求其餘節點從新執行該maperd任務。
1六、若是reduce任務還未完成就出現故障,jobtracker會要求其餘節點繼續執行reduce任務。