Hadoop學習筆記(1)

使用docker搭建分佈式環境

今天開始,準備學習大數據分析,參考的教材是O‘REILLY的《Hadoop數據分析》,算是一本比較新的書吧!我本身也屬於剛入門,寫筆記除了分享,更重要的是能夠提升學習的效果!!git

這裏我使用的是docker而不是書上推薦的在vmware上安裝虛擬機,至於爲何拋棄vm而選擇docker,固然是docker更加輕量級更加好用,docker能夠說是當今虛擬化技術的潮流,固然想更具體的優勢能夠去查閱相關資料,這裏就再也不累述。github

下面先說明一下個人環境配置:docker

  • 系統:Manjaro Linux
  • Docker version:18.09.2-ce
  • 安裝docker(Arch 真爽啊):
    sudo pacman -S docker
  • 更換docker源(使用ustc源):
    sudo gedit /etc/docker/daemon.json
    而後把下面的內容加入,便可:
{
  "registry-mirrors": ["https://docker.mirrors.ustc.edu.cn"]
}
複製代碼
  • 把本身加入docker用戶組,這樣就運行docker時就不用加sudo
echo "hello"
sudo groupadd docker
sudo usermod -aG docker $USER
複製代碼

而後重啓便可。json

搭建分佈式環境

書中搭建的環境是僞分佈式的,也就是單機,可是爲了未來更深刻地學習雲計算和大數據,我在這裏搭建的是全分佈式的環境,搭建方法很是簡單,得益於一個大佬在docker hub上發佈了已經配置好的開發環境,使咱們不用被繁瑣的配置步驟所困擾,很快地學習Hadoop的核心部分。網絡

首先,咱們先到docker hub上拉去相關的鏡像,你也能夠本身一步步拉,從操做系統到Hadoop再到jdk一個個地拉,而後本身配置,若是閒麻煩(like me),直接拉大佬已經配置好的鏡像就好了,方法很簡單,運行命令:
sudo docker pull kiwenlau/hadoop:1.0分佈式

而後克隆大佬的配置庫: git clone https://github.com/kiwenlau/hadoop-cluster-dockeroop

這是我用來測試環境,咱們的目的是學習,因此我後面會再本身寫hadoop的配置熟悉一下。學習

建立Hadoop網絡:測試

sudo docker network create --driver=bridge hadoop大數據

這個很重要,使用橋接網絡咱們才能夠模擬分佈式集羣。

下面先熱一下身: 啓動docker容器: cd hadoop-cluster-docker sudo ./start-container.sh

經過結果你也能夠知道,這個環境包含了1個master,2個slaver,對於咱們學習徹底夠用了。

這是咱們會進如master的根目錄下,運行自帶的WordCount程序熱身一下先吧:
./start-hadoop.sh
./run-wordcount.sh

以上就是這篇筆記的內容,後續會繼續深刻學習,待更。。。

寫在最後

今天開始會開始學習Hadoop數據分析,在搭好環境以後對docker更加喜好了,若是未來有機會,也會寫一些docker的文章。目前先啃好這本書,上面的內容基本與書上無關,因此後面就是Hadoop實踐部分了。開學了,但願能夠保持一月一更,甚至一月多更。

參考

相關文章
相關標籤/搜索