hadoop問題

時間 2019-12-06

標籤 hadoop 問題欄目 Hadoop 简体版

原文原文鏈接

一、hadoop重啓不能找到namenode，可能緣由是沒有指定臨時存儲目錄，默認會存儲到root根目錄下的tmp文件中，重啓後會消失，因此在core-site.xml文件中加入臨時文件配置便可！node

二、hadoop格式化會詢問yes or no，yes大寫！oop

三、配置SSH時，每臺機器都須要配置本身的爲密碼，master與slaves互相持有其公鑰！性能

四、hadoop命令操做Java，優化

bin/hadoop fs -ls,spa

將文件放到hadoop文件下，bin/hadoop fs -put ../input ./inxml

刪除文件 bin/hadoop fs -rmr file,並無物理刪除，只是放在回收站中，裏面能夠設置時間閾值，超過閾值刪除。hadoop

恢復與清空 bin/hadoop fs -move fileinput

快照：源碼

五、修改hdfs源碼實現，namenode多點，這樣一個namenode宕機不至於形成損失！《HDFS高可用》it

六、HDFS思想是硬件設備壞掉是常態，解決這個的方法就是冗餘！

七、datanode一次寫入不能修改！

八、心跳機制：datanode向namenode按期發送信號，告訴namenode我還活着！

九、設置hadoop-classpath! hadoop環境變量！

十、分片問題，分片只能很是徹底接近block。

性能調優

十一、combiner 預處理過程，減小帶寬，傳輸速度快！能夠優化在此。

十二、處理小文件，將小文件合成大文件。

1三、減小map階段的輸出。

1四、maperd-site.xml設置JVM重用。

1五、若是maperd任務還未完成就出現故障，jobtracker會要求其餘節點從新執行該maperd任務。

1六、若是reduce任務還未完成就出現故障，jobtracker會要求其餘節點繼續執行reduce任務。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。