強-大數據第九講

時間 2019-12-10

標籤數據第九简体版

原文原文鏈接

Spark基礎oop

第一節：什麼是Spark？Spark的特色和結構
一、什麼是Spark？
Spark是一個針對大規模數據處理的快速通用引擎。
相似MapReduce，都進行數據的處理

二、Spark的特色：
（1）基於Scala語言、Spark基於內存的計算
（2）快：基於內存
（3）易用：支持Scala、Java、Python
（4）通用：Spark Core、Spark SQL、Spark Streaming
MLlib、Graphx
（5）兼容性：徹底兼容Hadoopspa

三、Spark體系結構：主從結構
（1）主節點：Master
（2）從節點：Workerblog

第二節：搭建Spark的僞分佈模式環境
一、解壓：tar -zxvf spark-2.1.0-bin-hadoop2.4.tgz -C ~/training/
二、配置參數文件: conf/spark-env.sh
export JAVA_HOME=/root/training/jdk1.7.0_75
export SPARK_MASTER_HOST=bigdata11
export SPARK_MASTER_PORT=7077

conf/slaves ----> 從節點的主機信息
bigdata11

三、啓動Spark僞分佈環境
sbin/start-all.sh

Spark Web Console: http://192.168.88.11:8080內存

示例圖：hadoop