1.咱們將搭建一個hadoop的基礎集羣node
2.用VitrualBox安裝服務器基礎版的Centos7.python
3.由於虛擬機須要設置爲host-only,Win10對VirtualBox並不支持host-only的建立,該如何辦呢?host-only是讓虛擬機間能夠通行,和宿主能夠通訊,通常和Internet隔離來保證安全。linux
4.56.100是電信機房的電腦,xshell將鏈接訪問之。56.1是windows電腦。win8.1安裝xftp時可能報異常丟失nslicense.dll,暫未解決?shell
5.配置文件修改windows
a.設置ip:/etc/sysconfig/network-scripts/ifcfg-enp0s3安全
TYPE=Ethernet服務器
IPADDR=192.168.56.100架構
NETMASK=255.255.255.0oop
b.設置網關:/etc/sysconfig/network測試
NETWORKING=yes
GATEWAY=192.168.56.1
hostnamectl set-hostname master
systemctl restart network
ping 192.168.56.1測試鏈接成功,windows中ping 192.168.56.100測試成功。
c.若是想讓虛擬機也能夠上網,共享internet,那就設置爲共享的192.168.137.1網段的信息。並將虛擬機的網段也統一到192.168.137.1網段內,就能夠相互通訊,而且上internet網了。配合dns服務器時,簡單的方式是:echo "nameserver 114.114.114.114">> /etc/resolv.conf ,網上找時候看了一堆,有點複雜。
6.而後用xshell進行登陸,經過xftp上傳hadoop,jdk上傳到linux的/usr/local機器上。
7.rpm -ivh jdkxxx.rpm 安裝jdk。tar -xvf hadoop.xx.zip
8.配置hadoop運行jdk環境。/usr/local/hadoop/etc/hadoop/hadoop-env.sh ,由於會用到jdk功能。
9.hadoop執行命令的路徑加到咱們的path變量的路徑裏,這樣那個目錄下面均可以執行hadoop命令。/etc/profile,export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin,/source/profile。
10.測試安裝jdk,hadoop成功後,而後咱們複製虛擬機。不可能重複新再安裝一遍吧。
12.而後將slave1,2,3對應的ip修改成101,102,103,ping 192.168.56.1能夠聯通windows屬主機。
13.host-only的好處是設置完ip能夠保持不變。bridge是須要真實的IP,NAT每次啓動IP可能變化。
14.最後啓動4臺機器,這是架構。
14.而後相互ping確認均可以互相通訊後,中止並關閉全部機器的防火牆。systemctl stop firewalld;systemctl disable firewalld。
15.master是管理者,文件名及相關路徑的記錄者,datenode是數據存儲的機器。
16.下面啓動hadoop. 你們都要知道master是在那臺機器上,core-site.xml是你們都要設置的:/usr/local/hadoop/etc/hadoop/core-site.xml。
17.咱們用最基礎簡單的核心方法,再迭代的知識更新。
配置的信息:
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
18.啓動hadoop,master啓動namenode,salve*啓動datenode。
19. 修改讓機器之間相互認識名字。/etc/hosts
內容:
192.168.56.100 master
192.168.56.101 slave1
192.168.56.102 slave2
192.168.56.103 slave3
20.內容存儲格式化:hdfs namenode -format,注意是在/tmp下的。
21.master啓動: hadoop-daemon.sh start namenode,jps後顯示 NameNode,說明啓動完畢。
22.datenode啓動,hadoop-daemon.sh start datanode,jps顯示datanode,說明啓動完畢。
33.此時master管理着slave這些節點。並相互創建了聯繫。
總結:
1.市面上不少大數據課程都是集成了master腳本一下就配置和部署好相關機器的配置了,因此看着比較亂,我建議先把簡單的搭起來,看看hadoop是個什麼,寫個簡單的例子,慢慢就瞭解了。
2.xshell能夠同步多發送命令很好用。
3.hadoop大概10個小時課程概念基本就創建起來了,mapreduce雖然什麼都能幹,可是彆扭。實際工做中不經常使用,實際用hive,scalar,python來開發。