【大數據處理架構】1.spark streaming

1. spark 是什麼?html

>Apache Spark 是一個相似hadoop的開源高速集羣運算環境  與後者不一樣的是,spark更快(官方的說法是快近100倍)。提供高層JAVA,Scala,PythonI ,R API接口.並且提tools:Spark SQL for SQL 處理結構化數據, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.java



2. spark streaming sql

Spark Streaming: 構建在Spark上處理Stream數據的框架,主要的原理是將Stream數據分紅小的時間片段(幾秒),以相似batch批量處理的方式來處理這小部分數據。Spark Streaming構建在Spark上,一方面是因爲Spark的低延遲運行引擎(100ms+),儘管比不上專門的流式數據處理軟件。也可以用於實時計算,還有一方面相比基於Record的其餘處理框架(如Storm)。一部分窄依賴的RDD數據集可以從源數據又一次計算達到容錯處理目的。docker




3. build spark: shell

    1) 安裝 scala apache

          scala 語言很是簡潔,屬於函數式語言。其簡潔度使人驚訝(代碼量僅僅有java的十分之中的一個)值得學習。vim

         http://www.scala-lang.org/download/框架

          下載,解壓 :tar -zxvf filename  loactionide

          改動環境變量:vim /etc/profile  在PATH後增長scala解壓後文件位置。函數

           >  export SCALA_HOME = $/opt/scala/scala-2.11.7

           >  export SPARK_HOME=$opt/spark/spark-1.4.1
           >  export PATH=$SCALA_HOME/bin:$PATH:$SPARK_HOME/bin

                        

           update( very important or you may failed to change the path)  > source /etc/profile

          檢測:  scala -version

2)安裝 spark streaming

         下載這個版本號: spark-1.4.1-bin-hadoop2.6.tgz   (必定不要選source code 需要本身編譯)

http://spark.apache.org/downloads.html

          解壓: tar -zxvf filemname location  (文件名稱太長善用 tab鍵)

3)幾個命令 

啓動Spark

在Spark執行以前,首先需要讓Spark集羣啓動,假設需要用到hadoop的HDFS的話,也需要把HDFS啓動起來。

>cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin (注意依據本身的安裝文件夾定)
       ./stop-master.sh
    以及   ./start-master.sh
>cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin; 
     ./stop-slave.sh; 
     ./start-slave.sh spark://XXXXX
>bin/spark-shell.sh   啓動spark shell

 在SPARK_HOME/sbin文件夾:

  • sbin/start-master.sh-在機器上運行腳本。啓動 master .
  • sbin/start-slaves.sh- 啓動conf/slaves中指定的每一個slave .
  • sbin/start-all.sh- 同一時候啓動master 以及 上面所說文件裏指定的slave
  • sbin/stop-master.sh- 中止經過bin/start-master.sh腳本啓動的master
  • sbin/stop-slaves.sh- 中止經過bin/start-slaves.sh啓動的slave .
  • sbin/stop-all.sh- 中止上述的兩種啓動腳本啓動的master和slave
執行:
    想在想在spark上跑本身的代碼,需要咱們打包成jar ,使用 spark-streaming的命令。但是需要用到sbt的tool,咱們下一節再介紹。
參考:1. http://spark.apache.org/docs/latest/index.html
2. http://blog.csdn.net/yunlong34574/article/details/39098815
3.http://www.oschina.net/translate/spark-standalone?cmp
相關文章
相關標籤/搜索