大數據分析:hadoop工具

1、hadoop工具java

Hadoop介紹:vim

Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。用戶能夠在不瞭解分佈式底層細節的狀況下,開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。架構

Hadoop實現了一個分佈式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特色,而且設計用來部署在低廉的(low-cost)硬件上;並且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有着超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,能夠以流的形式訪問(streaming access)文件系統中的數據。框架

Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS爲海量的數據提供了存儲,則MapReduce爲海量的數據提供了計算。jvm

使用hadoop工具:分佈式

1> 安裝hadoop工具:工具

# tar -xf hadoop-2.7.3.tar.gz
# mv hadoop-2.7.3 /usr/local/hadoop     //將解壓後的hadoop安裝文件移動位置,不移動應該也能夠吧,有空能夠試一試?
# ./bin/hadoop version
# rpm -qa |grep openjdk  
# rpm -ql java-1.8.0-openjdk
# JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre"  //設置環境變量,會污染整個環境
# typeset -x JAVA_HOME      //將定義的變量放入環境變量    # unset JAVA_HOME    //取消定義變量JAVA_HOME
# JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre" ./bin/hadoop version    //也能夠變量的絕對路徑方式引用變量執行命令oop

2> 修改hadoop環境變量的配置文件:大數據

# vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
25 export JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre"       //將環境變量路徑指定位置,hadoop基於java寫的版本兼容性很差,版本不一樣位置可能不一樣
33 export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/usr/local/hadoop/etc/hadoop"}  //將hadoop配置文件目錄指定位置spa

3> 簡單驗證:利用hadoop工具統計一篇文檔裏面各個單詞出現的次數

# cd /usr/local/hadoop
# ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar --help  //查看這個塊支持的命令
# ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount input/LICENSE.txt output   //注意這裏要保證input/LICENSE.txt目錄下有這個文件,output目錄文件夾事先不存在;統計後的單詞列表會保存到output目錄下;這裏調用的是wordcount模塊功能

相關文章
相關標籤/搜索