關於分佈式系統的簡單說明

 

 

最近略忙,一直沒機會把Spark系統狀況跟二位交代一下。。。html

 

簡單說說,若是有時間的話再做補充。node

 

當前共三個節點:tianchi-node1(202.113.76.229),tianchi-node2(某公網ip)和tianchi-node3(202.113.76.35)。apache

登陸主機的用戶賬號(三臺相同):tianchi編程

密碼:alibaba架構

 

系統所用軟件及版本:Hadoop 2.6.0, Spark 1.3.0app

軟件位置(三臺主機相同):/home/tianchi/project-base/tianchi/software/hadoop-2.6.0, /home/tianchi/project-base/tianchi/software/spark-1.3.0-bin-hadoop2.4機器學習

若是想啓/停分佈式系統或進行其餘操做的話能夠參考相關文檔。分佈式

 

Hadoop: (能夠跳過對配置選項的講解,直接看底部的操做命令。咱目前只需使用hadoop提供的文件系統HDFS,不用啓動Yarn、Mapreduce什麼的)ide

http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/ClusterSetup.htmloop

 

Spark:  (Spark集羣有多種架構方式,咱們採用的是standalone模式。如下四篇官方文檔涵蓋了對standalone模式的講解、如何提交併執行spark程序、經常使用的spark編程接口和機器學習庫的使用,看完這些就應該能夠上手操做了)

http://spark.apache.org/docs/latest/spark-standalone.html

http://spark.apache.org/docs/latest/submitting-applications.html

http://spark.apache.org/docs/latest/programming-guide.html

http://spark.apache.org/docs/latest/mllib-guide.html

 

在HDFS系統和Spark系統中我都是將tianchi-node1即202.113.76.229看成master節點,因此HDFS文件系統的路徑前綴老是「hdfs://tianchi-node1:9000」,Spark master參數老是"spark://tianchi-node1:7077"。

HDFS使用方法請自行百度,提交併運行做業的具體方法請參考上面給出的spark官方文檔,若是還有問題的話能夠找我。

 

查看HDFS系統狀態:http://202.113.76.229:50070/dfshealth.html#tab-overview

Spark系統狀態:http://202.113.76.229:8080/

ok,就這麼多,有時間再補充。

 

by yx

相關文章
相關標籤/搜索