hadoop問題

一、hadoop重啓不能找到namenode,可能緣由是沒有指定臨時存儲目錄,默認會存儲到root根目錄下的tmp文件中,重啓後會消失,因此在core-site.xml文件中加入臨時文件配置便可!node

二、hadoop格式化會詢問yes or no,yes大寫!oop

三、配置SSH時,每臺機器都須要配置本身的爲密碼,master與slaves互相持有其公鑰!性能

四、hadoop命令操做Java,優化

bin/hadoop fs -ls,spa

將文件放到hadoop文件下,bin/hadoop fs -put ../input  ./inxml

刪除文件 bin/hadoop fs -rmr file,並無物理刪除,只是放在回收站中,裏面能夠設置時間閾值,超過閾值刪除。hadoop

恢復與清空 bin/hadoop fs -move fileinput

快照:源碼

五、修改hdfs源碼實現,namenode多點,這樣一個namenode宕機不至於形成損失!《HDFS高可用》it

六、HDFS思想是硬件設備壞掉是常態,解決這個的方法就是冗餘!

七、datanode一次寫入不能修改!

八、心跳機制:datanode向namenode按期發送信號,告訴namenode我還活着!

九、設置hadoop-classpath! hadoop環境變量!

十、分片問題,分片只能很是徹底接近block。

性能調優

十一、combiner 預處理過程,減小帶寬,傳輸速度快!能夠優化在此。

十二、處理小文件,將小文件合成大文件。

1三、減小map階段的輸出。

1四、maperd-site.xml設置JVM重用。

1五、若是maperd任務還未完成就出現故障,jobtracker會要求其餘節點從新執行該maperd任務。

1六、若是reduce任務還未完成就出現故障,jobtracker會要求其餘節點繼續執行reduce任務。

相關文章
相關標籤/搜索