【大數據處理架構】1.spark streaming

時間 2019-11-08

標籤大數據處理架構 1.spark spark streaming 欄目 Spark 简体版

原文原文鏈接

1. spark 是什麼？html

>Apache Spark 是一個相似hadoop的開源高速集羣運算環境與後者不一樣的是，spark更快（官方的說法是快近100倍）。提供高層JAVA,Scala,PythonI ,R API接口.並且提tools：Spark SQL for SQL 處理結構化數據, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.java

2. spark streaming sql

Spark Streaming: 構建在Spark上處理Stream數據的框架，主要的原理是將Stream數據分紅小的時間片段（幾秒），以相似batch批量處理的方式來處理這小部分數據。Spark Streaming構建在Spark上，一方面是因爲Spark的低延遲運行引擎（100ms+），儘管比不上專門的流式數據處理軟件。也可以用於實時計算，還有一方面相比基於Record的其餘處理框架（如Storm）。一部分窄依賴的RDD數據集可以從源數據又一次計算達到容錯處理目的。docker

3. build spark: shell

1）安裝 scala apache

scala 語言很是簡潔，屬於函數式語言。其簡潔度使人驚訝（代碼量僅僅有java的十分之中的一個）值得學習。vim

http://www.scala-lang.org/download/框架

下載，解壓：tar -zxvf filename loactionide

改動環境變量：vim /etc/profile 在PATH後增長scala解壓後文件位置。函數

> export SCALA_HOME = $/opt/scala/scala-2.11.7

> export SPARK_HOME=$opt/spark/spark-1.4.1
> export PATH=$SCALA_HOME/bin:$PATH:$SPARK_HOME/bin

update( very important or you may failed to change the path) > source /etc/profile

檢測： scala -version

2）安裝 spark streaming

下載這個版本號： spark-1.4.1-bin-hadoop2.6.tgz （必定不要選source code 需要本身編譯）