大數據分析：hadoop工具

時間 2019-12-12

原文原文鏈接

1、hadoop工具java

Hadoop介紹：vim

Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。用戶能夠在不瞭解分佈式底層細節的狀況下，開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。架構

Hadoop實現了一個分佈式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特色，而且設計用來部署在低廉的（low-cost）硬件上；並且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有着超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求，能夠以流的形式訪問（streaming access）文件系統中的數據。框架

Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS爲海量的數據提供了存儲，則MapReduce爲海量的數據提供了計算。jvm

使用hadoop工具：分佈式

1> 安裝hadoop工具：工具

# tar -xf hadoop-2.7.3.tar.gz
# mv hadoop-2.7.3 /usr/local/hadoop     //將解壓後的hadoop安裝文件移動位置，不移動應該也能夠吧，有空能夠試一試？
# ./bin/hadoop version
# rpm -qa |grep openjdk
# rpm -ql java-1.8.0-openjdk
# JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre" //設置環境變量，會污染整個環境
# typeset -x JAVA_HOME      //將定義的變量放入環境變量    # unset JAVA_HOME    //取消定義變量JAVA_HOME
# JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre" ./bin/hadoop version    //也能夠變量的絕對路徑方式引用變量執行命令oop

2> 修改hadoop環境變量的配置文件：大數據

# vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
25 export JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre" //將環境變量路徑指定位置，hadoop基於java寫的版本兼容性很差，版本不一樣位置可能不一樣
33 export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/usr/local/hadoop/etc/hadoop"} //將hadoop配置文件目錄指定位置spa

3> 簡單驗證：利用hadoop工具統計一篇文檔裏面各個單詞出現的次數

# cd /usr/local/hadoop
# ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar --help //查看這個塊支持的命令
# ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount input/LICENSE.txt output //注意這裏要保證input/LICENSE.txt目錄下有這個文件，output目錄文件夾事先不存在；統計後的單詞列表會保存到output目錄下；這裏調用的是wordcount模塊功能