最近略忙,一直沒機會把Spark系統狀況跟二位交代一下。。。html
簡單說說,若是有時間的話再做補充。node
當前共三個節點:tianchi-node1(202.113.76.229),tianchi-node2(某公網ip)和tianchi-node3(202.113.76.35)。apache
登陸主機的用戶賬號(三臺相同):tianchi編程
密碼:alibaba架構
系統所用軟件及版本:Hadoop 2.6.0, Spark 1.3.0app
軟件位置(三臺主機相同):/home/tianchi/project-base/tianchi/software/hadoop-2.6.0, /home/tianchi/project-base/tianchi/software/spark-1.3.0-bin-hadoop2.4機器學習
若是想啓/停分佈式系統或進行其餘操做的話能夠參考相關文檔。分佈式
Hadoop: (能夠跳過對配置選項的講解,直接看底部的操做命令。咱目前只需使用hadoop提供的文件系統HDFS,不用啓動Yarn、Mapreduce什麼的)ide
http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/ClusterSetup.htmloop
Spark: (Spark集羣有多種架構方式,咱們採用的是standalone模式。如下四篇官方文檔涵蓋了對standalone模式的講解、如何提交併執行spark程序、經常使用的spark編程接口和機器學習庫的使用,看完這些就應該能夠上手操做了)
http://spark.apache.org/docs/latest/spark-standalone.html
http://spark.apache.org/docs/latest/submitting-applications.html
http://spark.apache.org/docs/latest/programming-guide.html
http://spark.apache.org/docs/latest/mllib-guide.html
在HDFS系統和Spark系統中我都是將tianchi-node1即202.113.76.229看成master節點,因此HDFS文件系統的路徑前綴老是「hdfs://tianchi-node1:9000」,Spark master參數老是"spark://tianchi-node1:7077"。
HDFS使用方法請自行百度,提交併運行做業的具體方法請參考上面給出的spark官方文檔,若是還有問題的話能夠找我。
查看HDFS系統狀態:http://202.113.76.229:50070/dfshealth.html#tab-overview
Spark系統狀態:http://202.113.76.229:8080/
ok,就這麼多,有時間再補充。
by yx