java大數據最全課程學習筆記(1)--Hadoop簡介和安裝及僞分佈式

時間 2020-07-15

標籤 java 數據課程學習筆記 hadoop 簡介安裝分佈式欄目 Java 简体版

原文原文鏈接

目前CSDN,博客園,簡書同步發表中,更多精彩歡迎訪問個人gitee pageshtml

Hadoop簡介和安裝及僞分佈式

Hadoop簡介和安裝及僞分佈式

大數據概念

大數據概論

大數據(Big Data): 指沒法在必定時間範圍內用常規軟件工具進行捕捉,管理和處理的數據集合,是須要新處理模式才能具備更強的決策力,洞察發現力和流程優化能力的海量,高增加率和多樣化的信息資產.java

主要解決海量數據的存儲和海量數據的分析計算問題.

按順序給出數據存儲單位:bit,Byte,KB,MB,GB,TB,PB,EB,ZB,YB,BB,NB,DB.node

1Byte =8bit 1KB=1024Byte 1MB=1024KB 1GB=1024MB 1TB=1024GB 1PB=1024TBgit

大數據特色(4V)

Volume(大量):web

截至目前,人類生產的全部印刷材料的數據量是200PB,而歷史上全人類總共說過的話的數據量大約是5EB.當前,典型我的計算機硬盤的容量爲TB量級,而一些大企業的數據量已經接近EB量級.面試
Vekocity(高速):shell

這是大數據區分於傳統數據挖掘的最顯著特徵.根據IDC的"數字宇宙"的報告,預計到2020年,全球數據使用量將達到35.2ZB.在如此海量的數據面前,處理數據的效率就是企業的生命.數據庫
Variety(多樣):apache

這種類型的多樣性也讓數據被分爲結構化數據和非結構化數據.相對於以往便於存儲的以數據庫/文本爲主的結構化數據,非結構化數據愈來愈多,包括網絡日誌,音頻,視頻,圖片,地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求.編程
Value(低價值密度):

價值密度的高低與數據總量的大小成反比.如何快速對有價值數據"提純"成爲目前大數據背景下待解決的難題.

大數據部門組織結構

大數據部門組織結構,適用於大中型企業.

從Hadoop框架討論大數據生態

Hadoop是什麼

hadoop的初衷是採用大量的廉價機器,組成一個集羣!完成大數據的存儲和計算!

Hadoop三大發行版本

Hadoop三大發行版本：Apache、Cloudera、Hortonworks。

Apache版本最原始（最基礎）的版本，對於入門學習最好。

Cloudera在大型互聯網企業中用的較多。

Hortonworks文檔較好。

Hadoop的優點(4高)

高可靠性

Hadoop底層維護多個數據副本,因此即便Hadoop某個計算元素或存儲出現故障,也不會致使數據的丟失.
高擴展性

在集羣間分配任務數據,可方便的擴展數以千計的節點.
高效性

在MapReduce的思想下,Hadoop是並行工做的,以加快任務處理速度.
高容錯性

可以自動將失敗的任務從新分配

Hadoop組成(面試重點)

Hadoop1.x
- HDFS: 負責大數據的存儲
- common: HDFS和MR共有的經常使用的工具包模塊
- MapReduce: 負責計算,負責計算資源的申請的調度
完成大數據的計算
- 寫程序.程序須要複合計算框架的要求
  - java-->main-->運行
  - MapReduce(編程模型)-->Map-->Reducer
- 運行程序.申請計算資源(CPU+內存,磁盤IO,網絡IO)
  - java-->JVM-->os-->申請計算資源
  - 1.x: MapReduce(編程模型)-->JobTracker-->JVM-->申請計算資源
  - 2.x: MapReduce(編程模型)-->jar-->運行時,將jar包中的任務,提交給YARN,和YARN進行通訊
    - 由YARN中的組件-->JVM-->申請計算資源
1.x和2.x的區別是將資源調度和管理進行分離!由統一的資源調度平臺YARN進行大數據計算資源的調度!提高了Hadoop的通用性!Hadoop搭建的集羣中的計算資源,不只能夠運行Hadoop中的MR程序!也能夠運行其餘計算框架的程序!
因爲MR的低效性,出現了許多更爲高效的計算框架!例如:Tez,Storm,Spark,Flink

HDFS架構概述

HDFS: 負責大數據的存儲

核心進程(必須進程):
- NameNode(1個):存儲文件的元數據.如文件名,文件目錄結構,文件屬性(生成時間,副本數,文件權限),以及每一個文件的塊列表和塊所在的DataNode等.
  - 職責
    
    接收客戶端的請求!
    
    接收DN的請求!
    
    向DN分配任務!
- DataNode(N個):在本地文件系統存儲文件塊數據,以及塊數據的校驗和.
  - 職責
    
    負責接收NN分配的任務!
    
    負責數據塊(block)的管理(讀,寫)!
可選進程:
- Secondary Namenode(N個):用來監控HDFS狀態的輔助後臺程序,每隔一段時間獲取HDFS元數據的快照.

MapReduce架構概述

MapReduce將計算過程分爲兩個階段：Map和Reduce

Map階段並行處理輸入數據

Reduce階段對Map結果進行彙總

MapReduce(編程規範): 程序中有Map(簡單處理)和Reducer(合併)
遵循MapReduce的編程規範編寫的程序打包後,被稱爲一個Job(任務)
Job須要提交到YARN上,向YARN申請計算資源,運行Job中的Task(進程)
Job會先建立一個進行MRAppMaster(mapReduce應用管理者),由MRMaster向YARN申請資源!MRAppMaster負責監控Job中各個Task運行狀況,進行容錯管理!

YARN架構概述

YARN負責集羣中全部計算資源的管理和調度

常見進程
- ResourceManager(1個): 負責整個集羣全部資源的管理！
  - 職責
    
    負責接受客戶端的提交Job的請求！
    負責向NM分配任務！
    負責接受NM上報的信息！
- NodeManager(N個): 負責單臺計算機全部資源的管理！
  - 職責
    
    負責和RM進行通訊，上報本機中的可用資源！
    負責領取RM分配的任務！
    負責爲Job中的每一個Task分配計算資源！
- Container（容器）
  
  NodeManager爲Job的某個Task分配了2個CPU和2G內存的計算資源！
  
  爲了防止當前Task在使用這些資源期間，被其餘的task搶佔資源！
  
  將計算資源，封裝到一個Container中，在Container中的資源，會被暫時隔離！沒法被其餘進程所搶佔！
  
  當前Task運行結束後，當前Container中的資源會被釋放！容許其餘task來使用！

大數據技術生態體系

圖中涉及的技術名詞解釋以下：
1. Sqoop：Sqoop是一款開源的工具，主要用於在Hadoop、Hive與傳統的數據庫(MySql)間進行數據的傳遞，能夠將一個關係型數據庫（例如：MySQL，Oracle 等）中的數據導進到Hadoop的HDFS中，也能夠將HDFS的數據導進到關係型數據庫中。
2. Flume：Flume是Cloudera提供的一個高可用的，高可靠的，分佈式的海量日誌採集、聚合和傳輸的系統，Flume支持在日誌系統中定製各種數據發送方，用於收集數據；同時，Flume提供對數據進行簡單處理，並寫到各類數據接受方（可定製）的能力。
3. Kafka：Kafka是一種高吞吐量的分佈式發佈訂閱消息系統，有以下特性：
  1. 經過O(1)的磁盤數據結構提供消息的持久化，這種結構對於即便數以TB的消息存儲也可以保持長時間的穩定性能。
  2. 高吞吐量：即便是很是普通的硬件Kafka也能夠支持每秒數百萬的消息。
  3. 支持經過Kafka服務器和消費機集羣來分區消息。
  4. 支持Hadoop並行數據加載。
4. Storm：Storm用於「連續計算」，對數據流作連續查詢，在計算時就將結果以流的形式輸出給用戶。
5. Spark：Spark是當前最流行的開源大數據內存計算框架。能夠基於Hadoop上存儲的大數據進行計算。
6. Oozie：Oozie是一個管理Hdoop做業（job）的工做流程調度管理系統。
7. Hbase：HBase是一個分佈式的、面向列的開源數據庫。HBase不一樣於通常的關係數據庫，它是一個適合於非結構化數據存儲的數據庫。
8. Hive：Hive是基於Hadoop的一個數據倉庫工具，能夠將結構化的數據文件映射爲一張數據庫表，並提供簡單的SQL查詢功能，能夠將SQL語句轉換爲MapReduce任務進行運行。其優勢是學習成本低，能夠經過類SQL語句快速實現簡單的MapReduce統計，沒必要開發專門的MapReduce應用，十分適合數據倉庫的統計分析。
9. R語言：R是用於統計分析、繪圖的語言和操做環境。R是屬於GNU系統的一個自由、免費、源代碼開放的軟件，它是一個用於統計計算和統計製圖的優秀工具。
10. Mahout：Apache Mahout是個可擴展的機器學習和數據挖掘庫。
11. ZooKeeper：Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分佈式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分佈式同步、組服務等。ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務，將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

Hadoop運行環境搭建(開發重點)

虛擬機環境準備

克隆虛擬機
修改克隆虛擬機的靜態IP
修改主機名
關閉防火牆
建立atguigu用戶
```
useradd atguigu
passwd atguigu
```
配置atguigu用戶具備root權限(詳見大數據技術之Linux)
```
vim /etc/sudoers
```
- 找到root所在的位置,加入atguigu ALL=(ALL) NOPASSWD: ALL
root ALL=(ALL) ALL
atguigu ALL=(ALL) NOPASSWD: ALL
在/opt目錄下建立文件
```
sudo mkdir module
sudo mkdir soft
```
- 將/opt目錄下建立的soft目錄和module目錄的所屬主修改成atguigu
```
sudo chown -R atguigu:atguigu /opt/soft /opt/module
```

安裝JDK

安裝過程(略)
配置JDK環境變量
```
vim /etc/profile
```
- Shift+G到最後一行新增
```
JAVA_HOME=/opt/module/jdk1.8.0_121
PATH=$PATH:$JAVA_HOME/bin
export JAVA_HOME PATH
```
- wq保存退出後,讓修改後的文件生效
```
source /etc/profile
```
- 測試JDK是否安裝成功
```
java -version
```
java version "1.8.0_144"

安裝Hadoop

安裝過程(略)

將Hadoop添加到環境變量

最後文件內容爲:

JAVA_HOME=/opt/module/jdk1.8.0_121
HADOOP_HOME=/opt/module/hadoop-2.7.2
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME PATH HADOOP_HOME

Hadoop目錄結構

重要目錄
1. bin目錄：存放對Hadoop相關服務（HDFS,YARN）進行操做的腳本
2. etc目錄：Hadoop的配置文件目錄，存放Hadoop的配置文件
3. lib目錄：存放Hadoop的本地庫（對數據進行壓縮解壓縮功能）
4. sbin目錄：存放啓動或中止Hadoop相關服務的腳本
5. share目錄：存放Hadoop的依賴jar包、文檔、和官方案例

Hadoop運行模式

Hadoop運行模式包括：本地模式、僞分佈式模式以及徹底分佈式模式。

Hadoop官方網站：http://hadoop.apache.org/

本地運行模式

官方Grep案例

建立在hadoop-2.7.2文件下面建立一個input文件夾

[atguigu@hadoop101 hadoop-2.7.2]$ mkdir input

將Hadoop的xml配置文件複製到input

[atguigu@hadoop101 hadoop-2.7.2]$ cp etc/hadoop/*.xml input

執行share目錄下的MapReduce程序

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hadoop jar

share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

查看輸出結果

[atguigu@hadoop101 hadoop-2.7.2]$ cat output/*

官方WordCount案例

建立在hadoop-2.7.2文件下面建立一個wcinput文件夾

[atguigu@hadoop101 hadoop-2.7.2]$ mkdir wcinput

在wcinput文件下建立一個wc.input文件

[atguigu@hadoop101 hadoop-2.7.2]$ cd wcinput
[atguigu@hadoop101 wcinput]$ touch wc.input

編輯wc.input文件

[atguigu@hadoop101 wcinput]$ vi wc.input

在文件中輸入以下內容

hadoop yarn
hadoop mapreduce
atguigu
atguigu

保存退出：：wq

回到Hadoop目錄/opt/module/hadoop-2.7.2
執行程序

[atguigu@hadoop101 hadoop-2.7.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

查看結果

1.命令查看

[atguigu@hadoop101 hadoop-2.7.2]$ cat wcoutput/part-r-00000
atguigu 2
hadoop  2
mapreduce    1
yarn   1

2.瀏覽器查看

http://192.168.1.100:50070

僞分佈式運行模式

啓動HDFS並運行MapReduce程序

分析
1. 配置集羣
2. 啓動、測試集羣增、刪、查
3. 執行WordCount案例

執行步驟

配置集羣

配置: hadoop-env.sh

Linux系統中獲取JDK的安裝路徑：

[atguigu@ hadoop101 ~]# echo $JAVA_HOME
/opt/module/jdk1.8.0_144

修改JAVA_HOME 路徑：

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置: core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
    <value>hdfs://mypc:9000</value>
</property>
<!-- 指定Hadoop運行時產生文件的存儲目錄 -->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

配置: hdfs-site.xml

<!-- 指定HDFS副本的數量 -->
<property>
	<name>dfs.replication</name>
	<value>1</value>
</property>

啓動集羣

格式化NameNode（第一次啓動時格式化，之後就不要總格式化）
```
atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs namenode -format
```

啓動NameNode

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode

啓動DataNode

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start datanode

查看集羣
1. 查看是否啓動成功
```
[atguigu@hadoop101 hadoop-2.7.2]$ jps
13586 NameNode
13668 DataNode
13786 Jps
```
  注意：jps是JDK中的命令，不是Linux命令。不安裝JDK不能使用jps
2. web端查看HDFS文件系統
  
  http://192.168.1.100:50070/dfshealth.html#tab-overview
3. 查看產生的Log日誌
  
  說明：在企業中遇到Bug時，常常根據日誌提示信息去分析問題、解決Bug。
  - 當前目錄：/opt/module/hadoop-2.7.2/logs
```
[atguigu@hadoop101 logs]$ ls
hadoop-atguigu-datanode-hadoop.atguigu.com.log
hadoop-atguigu-datanode-hadoop.atguigu.com.out
hadoop-atguigu-namenode-hadoop.atguigu.com.log
hadoop-atguigu-namenode-hadoop.atguigu.com.out
SecurityAuth-root.audit
[atguigu@hadoop101 logs]# cat hadoop-atguigu-datanode-hadoop101.log
```
4. 思考：爲何不能一直格式化NameNode，格式化NameNode，要注意什麼？
```
[atguigu@hadoop101 hadoop-2.7.2]$ cd data/tmp/dfs/name/current/
[atguigu@hadoop101 current]$ cat VERSION
clusterID=CID-f0330a58-36fa-4a2a-a65f-2688269b5837

[atguigu@hadoop101 hadoop-2.7.2]$ cd data/tmp/dfs/data/current/
clusterID=CID-f0330a58-36fa-4a2a-a65f-2688269b5837
```
  注意：格式化NameNode，會產生新的集羣id,致使NameNode和DataNode的集羣id不一致，集羣找不到已往數據。因此，格式NameNode時，必定要先刪除data數據和log日誌，而後再格式化NameNode。

操做集羣

在HDFS文件系統上建立一個input文件夾

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -mkdir -p /user/atguigu/input

將測試文件內容上傳到文件系統上

[atguigu@hadoop101 hadoop-2.7.2]$bin/hdfs dfs -put wcinput/wc.input /user/atguigu/input/

查看上傳的文件是否正確

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -ls  /user/atguigu/input/
[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -cat  /user/atguigu/ input/wc.input

運行MapReduce程序

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/atguigu/input/ /user/atguigu/output

查看輸出結果

命令行查看:

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -cat /user/atguigu/output/*

瀏覽器查看:

將測試文件內容下載到本地

[atguigu@hadoop101 hadoop-2.7.2]$ hdfs dfs -get /user/atguigu/output/part-r-00000 ./wcoutput/

刪除輸出結果

[atguigu@hadoop101 hadoop-2.7.2]$ hdfs dfs -rm -r /user/atguigu/output

YARN上運行MapReduce 程序

分析
1. 配置集羣YARN上運行
2. 啓動、測試集羣增、刪、查
3. 在YARN上執行WordCount案例

執行步驟

配置集羣

配置yarn-env.sh

配置一下JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置yarn-site.xml

<!-- reducer獲取數據的方式 -->
<property>
 		<name>yarn.nodemanager.aux-services</name>
 		<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop101</value>
</property>

配置：mapred-env.sh

配置一下JAVA_HOME
```
export JAVA_HOME=/opt/module/jdk1.8.0_144
```

配置： (對mapred-site.xml.template從新命名爲) mapred-site.xml

[atguigu@hadoop101 hadoop]$ mv mapred-site.xml.template mapred-site.xml
[atguigu@hadoop101 hadoop]$ vi mapred-site.xml

<!-- 指定MR運行在YARN上 -->
<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
</property>

啓動集羣

啓動前必須保證NameNode和DataNode已經啓動

啓動ResourceManager

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh start resourcemanager

啓動NodeManager

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh start nodemanager

集羣操做

YARN的瀏覽器頁面查看

http://192.168.1.100:8088/cluster

刪除文件系統上的output文件

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -rm -R /user/atguigu/output

執行MapReduce程序

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/atguigu/input  /user/atguigu/output

查看運行結果

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -cat /user/atguigu/output/*

配置歷史服務器

爲了查看程序的歷史運行狀況，須要配置一下歷史服務器

配置mapred-site.xml

[atguigu@hadoop101 hadoop]$ vi mapred-site.xml

在該文件裏面增長以下配置

<property>
<name>mapreduce.jobhistory.address</name>
<value>mypc:10020</value>
</property>
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>mypc:19888</value>
</property>
<!--第三方框架使用yarn計算的日誌彙集功能 -->
<property>
        <name>yarn.log.server.url</name>
        <value>http://mypc:19888/jobhistory/logs</value>
</property>

啓動歷史服務器

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/mr-jobhistory-daemon.sh start historyserver

查看歷史服務器是否啓動
```
atguigu@hadoop101 hadoop-2.7.2]$ jps
```
查看JobHistory

http://192.168.1.100:19888/jobhistory

配置日誌的彙集

日誌彙集概念：應用運行完成之後，將程序運行日誌信息上傳到HDFS系統上。

日誌彙集功能好處：能夠方便的查看到程序運行詳情，方便開發調試。

注意：開啓日誌彙集功能，須要從新啓動NodeManager 、ResourceManager和HistoryManager。

開啓日誌彙集功能具體步驟以下：

配置yarn-site.xml

[atguigu@hadoop101 hadoop]$ vi yarn-site.xml

在該文件裏面增長以下配置

<!-- 日誌彙集功能使能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日誌保留時間設置7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>

關閉NodeManager 、ResourceManager和HistoryManager

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh stop resourcemanager
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh stop nodemanager
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/mr-jobhistory-daemon.sh stop historyserver

啓動NodeManager 、ResourceManager和HistoryManager

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh start resourcemanager
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh start nodemanager
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/mr-jobhistory-daemon.sh start historyserver

刪除HDFS上已經存在的輸出文件

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -rm -R /user/atguigu/output

執行WordCount程序
```
[atguigu@hadoop101 hadoop-2.7.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/atguigu/input /user/atguigu/output
```
- 我wc1裏有文件,wc3不存在
- 因此我執行了一個簡單的測試命令
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /wc1 /wc3
查看日誌

http://192.168.1.100:19888/jobhistory

配置文件說明及其餘注意事項

配置文件說明

Hadoop配置文件分兩類：默認配置文件和自定義配置文件，只有用戶想修改某一默認配置值時，才須要修改自定義配置文件，更改相應屬性值。

默認配置文件

要獲取的默認文件	文件存放在Hadoop的jar包中的位置
[core-default.xml]	hadoop-common-2.7.2.jar/ core-default.xml
[hdfs-default.xml]	hadoop-hdfs-2.7.2.jar/ hdfs-default.xml
[yarn-default.xml]	hadoop-yarn-common-2.7.2.jar/ yarn-default.xml
[mapred-default.xml]	hadoop-mapreduce-client-core-2.7.2.jar/ mapred-default.xml

自定義配置文件

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四個配置文件存放在$HADOOP_HOME/etc/hadoop這個路徑上，用戶能夠根據項目需求從新進行修改配置。

其餘注意事項

本次學習使用的虛擬機系統是centOS6.8,和生產環境廣泛使用的centOS7.X的部分命令有差別,請注意識別!
在Hadoop中啓動多種不一樣類型的進程.例如NN,DN，RM,NM，這些進程須要進行通訊！在通訊時，經常使用主機名進行通訊！
- 在192.168.1.100機器上的DN進程，但願訪問192.168.1.104機器的NN進程！須要在集羣的每臺機器上，配置集羣中全部機器的host映射！
- 配置：
  
  Linux: /etc/hosts
  Windows： C:\Windows\System32\drivers\etc\hosts
- 不配報錯：DNS映射異常，HOST映射異常
- Linux配置完hosts文件後必定要重啓網絡配置!!!
  
  service network restart
注意權限
- hadoop框架在運行須要產生不少數據(日誌)，數據的保存目錄，必須讓當前啓動hadoop進程的用戶擁有寫權限！
關閉防火牆，設置開機不自啓動

service iptables stop
chkconfig iptables off
HDFS的運行模式的參數設置

fs.defaultFS在core-default.xml中！
- 本地模式(在本機上使用HDFS，使用的就是本機的文件系統)
  
  fs.defaultFS=file:///(默認)
- 分佈式模式
  
  fs.defaultFS=hdfs://
提交任務的命令

hadoop jar jar包主類名參數{多個輸入目錄，一個輸出目錄}

輸入目錄中必須所有是文件！
輸出目錄必須不存在！