1、Hadoop進程監聽的地址和端口:node
Hadoop啓動時會運行兩個服務器進程,一個爲用於hadoop各進程間進行通訊的RPC服務進程,另外一個是提供了便於管理員查看hadoop集羣各進程相關信息頁面的http服務進程。web
用於定義各RPC服務器所監聽的地址和端口的屬性有以下幾個:瀏覽器
fs.default.name : 定義HDFS的namenode用於提供URI所監聽的地址和端口,默認端口8020服務器
dfs.datanode.ipc.address : DataNode上IPC服務器監聽的地址和端口,默認爲0.0.0.0:50020app
mapred.job.tracker : JobTracker的RPC服務器所監聽的地址和端口,默認爲8021。ide
mapred.task.tracker.report.address :TaskTracker的RPC服務器監聽的地址和端口:TaskTracker的子JVM使用此端口與tasktracker進行通信,它僅須要監聽在本地迴環地址127.0.0.1上,所以可使用任何端口,只有在當本地沒有迴環接口時才須要修改此屬性值。oop
除了RPC服務外,DataNode還會運行一個TCP/IP服務用於數據塊傳輸,其監聽的地址和端口能夠經過dfs.datanode.address屬性進行定義,默認爲0.0.0.0:50010spa
HTTP服務屬性:(能夠經過瀏覽器訪問獲取對應進程的信息)xml
mapred.job.tracker.http.address : JobTracker的HTTP服務器地址和端口,默認0.0.0.0:50030接口
mapred.task.tracker.http.address: TaskTracker的HTTP服務器地址和端口,默認0.0.0.0:50060
dfs.http.address : NameNode的HTTP服務器地址和端口,默認0.0.0.0:50070
dfs.datanode.http.address: DataNode的HTTP服務地址和端口,默認0.0.0.0:50075
dfs.secondary.http.address: SecondaryNameNode的HTTP服務地址和端口,默認0.0.0.0:50090
2、Hadoop配置文件:
Hadoop配置文件主要有core-site.xml,hdfs-site.xml,mapred-site.xml三個配置文件;
不過根據版本不一樣,配置文件也不盡相同,能夠解壓hadoop包後,用(find hadoop-*** -name *.xml/sh )查找,裏面有詳細的官方說明文檔:
大體有如下幾個:
masters : 運行 secondarynamenode的機器列表(容易混淆,新版本中這個文件沒有了)
slavers: 運行datanode和tasktrackers的機器列表;
hadoop-env.sh/ yarn-env.sh/ httpfs-env.sh/ mapred-env.sh 這三個配置文件是配置hadoop環境變量的配置文件(若是在全局模式下配置了,在這能夠忽略,在新版本中才有的配置文件) 通常就是配置 JAVA_HOME / HADOOP_HOME之類;
core-site.xml 這個配置文件是對hadoop全局的配置文件:
fs.default.name:namenode RPC交互端口,默認hdfs://master:8020
hadoop.tmp.dir:hadoop臨時文件目錄,hdfs/mapreduce等不少文件目錄的父目錄,
默認:/tmp/hadoop-${user.name}
fs.checkpoint.dir:secondary NameNode的元數據存放目錄 以,號隔開,hdfs會把元數據冗餘複製到這些目錄,通常這些目錄是不一樣的塊設備,不存在的目錄會被忽略掉;
默認:${hadoop.tmp.dir}/dfs/namesecondary
fs.checkpoint.edits.dir:secondary NameNode的事務文件存儲的目錄,以,號隔開,hdfs會把事務文件冗餘複製到這些目錄。
默認:${fs.checkpoint.dir}
hdfs-site.xml這個配置文件是對hdfs局部的配置文件:
dfs.data.dir:data node的數據目錄,以,號隔開,hdfs會把數據存在這些目錄下,通常這些目錄是不一樣的塊設備,不存在的目錄會被忽略掉
默認:${hadoop.tmp.dir}/dfs/data
dfs.name.dir:name node的元數據,以,號隔開,hdfs會把元數據冗餘複製到這些目錄,通常這些目錄是不一樣的塊設備,不存在的目錄會被忽略掉
默認:{hadoop.tmp.dir}/dfs/name
dfs.name.edits.dir :name node的事務文件存儲的目錄,以,號隔開,hdfs會把事務文件冗餘複製到這些目錄,通常這些目錄是不一樣的塊設備,不存在的目錄會被忽略掉
默認:${dfs.name.dir}
dfs.replication : 文件副本複製的數量數,不指定默認3份。
dfs.support.append:支持文件append,主要是支持hbase
默認:false,改成true支持。
dfs.http.address:NameNode web管理端口:0.0.0.0:50070
dfs.datanode.address:datanode 控制端口:0.0.0.0:50010
dfs.datanode.ipc.address:datanode的RPC服務器地址和端口:0.0.0.0:50020
dfs.datanode.http.address:datanode的HTTP服務器和端口:0.0.0.0:50075
dfs.secondary.http.address :secondary NameNode web管理端口:50090
mapred-site.xml這個是對mapreduce的局部的 配置文件:
mapred.local.dir:MapReduce產生的中間數據存放目錄,以,號隔開,hdfs會把數據存在這些目錄下,通常這些目錄是不一樣的塊設備,不存在的目錄會被忽略掉
默認:${hadoop.tmp.dir}/mapred/local
mapred.system.dir:MapReduce的控制文件
默認:${hadoop.tmp.dir}/mapred/system
mapred.job.tracker:job tracker交互端口 :hdfs://master:8021/
mapred.job.tracker.http.address:job tracker的web管理端口0.0.0.0:50030
mapred.task.tracker.http.address:task tracker的HTTP端口0.0.0.0:50060
沒 有特殊需求的狀況下,配置上 面 標紅色的 項目就能夠。
新版本中,又加了好幾個配置文件,具體內容還沒研究過,有待更新: