Hadoop學習筆記（1）

時間 2019-12-07

標籤 hadoop 學習筆記欄目 Hadoop 简体版

原文原文鏈接

使用docker搭建分佈式環境

今天開始，準備學習大數據分析，參考的教材是O‘REILLY的《Hadoop數據分析》,算是一本比較新的書吧！我本身也屬於剛入門，寫筆記除了分享，更重要的是能夠提升學習的效果！！git

這裏我使用的是docker而不是書上推薦的在vmware上安裝虛擬機，至於爲何拋棄vm而選擇docker，固然是docker更加輕量級更加好用，docker能夠說是當今虛擬化技術的潮流，固然想更具體的優勢能夠去查閱相關資料，這裏就再也不累述。github

下面先說明一下個人環境配置：docker

系統：Manjaro Linux
Docker version：18.09.2-ce
安裝docker（Arch 真爽啊）：
sudo pacman -S docker
更換docker源（使用ustc源）：
sudo gedit /etc/docker/daemon.json
而後把下面的內容加入，便可：

{
  "registry-mirrors": ["https://docker.mirrors.ustc.edu.cn"]
}
複製代碼

把本身加入docker用戶組，這樣就運行docker時就不用加sudo了：

echo "hello"
sudo groupadd docker
sudo usermod -aG docker $USER
複製代碼

而後重啓便可。json

搭建分佈式環境

書中搭建的環境是僞分佈式的，也就是單機，可是爲了未來更深刻地學習雲計算和大數據，我在這裏搭建的是全分佈式的環境，搭建方法很是簡單，得益於一個大佬在docker hub上發佈了已經配置好的開發環境，使咱們不用被繁瑣的配置步驟所困擾，很快地學習Hadoop的核心部分。網絡

首先，咱們先到docker hub上拉去相關的鏡像，你也能夠本身一步步拉，從操做系統到Hadoop再到jdk一個個地拉，而後本身配置，若是閒麻煩（like me），直接拉大佬已經配置好的鏡像就好了，方法很簡單，運行命令：
sudo docker pull kiwenlau/hadoop:1.0分佈式

而後克隆大佬的配置庫： git clone https://github.com/kiwenlau/hadoop-cluster-dockeroop