今天開始,準備學習大數據分析,參考的教材是O‘REILLY的《Hadoop數據分析》,算是一本比較新的書吧!我本身也屬於剛入門,寫筆記除了分享,更重要的是能夠提升學習的效果!!git
這裏我使用的是docker而不是書上推薦的在vmware上安裝虛擬機,至於爲何拋棄vm而選擇docker,固然是docker更加輕量級更加好用,docker能夠說是當今虛擬化技術的潮流,固然想更具體的優勢能夠去查閱相關資料,這裏就再也不累述。github
下面先說明一下個人環境配置:docker
sudo pacman -S docker
sudo gedit /etc/docker/daemon.json
{
"registry-mirrors": ["https://docker.mirrors.ustc.edu.cn"]
}
複製代碼
docker
用戶組,這樣就運行docker時就不用加sudo
了:echo "hello"
sudo groupadd docker
sudo usermod -aG docker $USER
複製代碼
而後重啓便可。json
書中搭建的環境是僞分佈式的,也就是單機,可是爲了未來更深刻地學習雲計算和大數據,我在這裏搭建的是全分佈式的環境,搭建方法很是簡單,得益於一個大佬在docker hub上發佈了已經配置好的開發環境,使咱們不用被繁瑣的配置步驟所困擾,很快地學習Hadoop的核心部分。網絡
首先,咱們先到docker hub上拉去相關的鏡像,你也能夠本身一步步拉,從操做系統到Hadoop再到jdk一個個地拉,而後本身配置,若是閒麻煩(like me),直接拉大佬已經配置好的鏡像就好了,方法很簡單,運行命令:
sudo docker pull kiwenlau/hadoop:1.0
分佈式
而後克隆大佬的配置庫: git clone https://github.com/kiwenlau/hadoop-cluster-docker
oop
這是我用來測試環境,咱們的目的是學習,因此我後面會再本身寫hadoop的配置熟悉一下。學習
建立Hadoop網絡:測試
sudo docker network create --driver=bridge hadoop
大數據
這個很重要,使用橋接網絡咱們才能夠模擬分佈式集羣。
下面先熱一下身: 啓動docker容器: cd hadoop-cluster-docker
sudo ./start-container.sh
經過結果你也能夠知道,這個環境包含了1個
master
,2個slaver
,對於咱們學習徹底夠用了。
這是咱們會進如master
的根目錄下,運行自帶的WordCount程序熱身一下先吧:
./start-hadoop.sh
./run-wordcount.sh
以上就是這篇筆記的內容,後續會繼續深刻學習,待更。。。
今天開始會開始學習Hadoop數據分析,在搭好環境以後對docker更加喜好了,若是未來有機會,也會寫一些docker的文章。目前先啃好這本書,上面的內容基本與書上無關,因此後面就是Hadoop實踐部分了。開學了,但願能夠保持一月一更,甚至一月多更。