1. spark 是什麼?html
>Apache Spark 是一個相似hadoop的開源高速集羣運算環境 與後者不一樣的是,spark更快(官方的說法是快近100倍)。提供高層JAVA,Scala,PythonI ,R API接口.並且提tools:Spark SQL for SQL 處理結構化數據, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.java
2. spark streaming sql
Spark Streaming: 構建在Spark上處理Stream數據的框架,主要的原理是將Stream數據分紅小的時間片段(幾秒),以相似batch批量處理的方式來處理這小部分數據。Spark Streaming構建在Spark上,一方面是因爲Spark的低延遲運行引擎(100ms+),儘管比不上專門的流式數據處理軟件。也可以用於實時計算,還有一方面相比基於Record的其餘處理框架(如Storm)。一部分窄依賴的RDD數據集可以從源數據又一次計算達到容錯處理目的。docker
3. build spark: shell
1) 安裝 scala apache
scala 語言很是簡潔,屬於函數式語言。其簡潔度使人驚訝(代碼量僅僅有java的十分之中的一個)值得學習。vim
http://www.scala-lang.org/download/框架
下載,解壓 :tar -zxvf filename loactionide
改動環境變量:vim /etc/profile 在PATH後增長scala解壓後文件位置。函數
> export SCALA_HOME = $/opt/scala/scala-2.11.7
> export SPARK_HOME=$opt/spark/spark-1.4.1
> export PATH=$SCALA_HOME/bin:$PATH:$SPARK_HOME/bin
update( very important or you may failed to change the path) > source /etc/profile
檢測: scala -version
2)安裝 spark streaming
下載這個版本號: spark-1.4.1-bin-hadoop2.6.tgz (必定不要選source code 需要本身編譯)
http://spark.apache.org/downloads.html
解壓: tar -zxvf filemname location (文件名稱太長善用 tab鍵)
3)幾個命令
在Spark執行以前,首先需要讓Spark集羣啓動,假設需要用到hadoop的HDFS的話,也需要把HDFS啓動起來。