Spark基礎oop
第一節:什麼是Spark?Spark的特色和結構
一、什麼是Spark?
Spark是一個針對大規模數據處理的快速通用引擎。
相似MapReduce,都進行數據的處理
二、Spark的特色:
(1)基於Scala語言、Spark基於內存的計算
(2)快:基於內存
(3)易用:支持Scala、Java、Python
(4)通用:Spark Core、Spark SQL、Spark Streaming
MLlib、Graphx
(5)兼容性:徹底兼容Hadoopspa
三、Spark體系結構:主從結構
(1)主節點:Master
(2)從節點:Workerblog
第二節:搭建Spark的僞分佈模式環境
一、解壓:tar -zxvf spark-2.1.0-bin-hadoop2.4.tgz -C ~/training/
二、配置參數文件: conf/spark-env.sh
export JAVA_HOME=/root/training/jdk1.7.0_75
export SPARK_MASTER_HOST=bigdata11
export SPARK_MASTER_PORT=7077
conf/slaves ----> 從節點的主機信息
bigdata11
三、啓動Spark僞分佈環境
sbin/start-all.sh
Spark Web Console: http://192.168.88.11:8080內存
示例圖:hadoop