Apache Spark是一個圍繞速度、易用性和複雜分析構建的大數據處理框架,最初在2009年由加州大學伯克利分校的AMPLab開發,並於2010年成爲Apache的開源項目之一,與Hadoop和Storm等其餘大數據和MapReduce技術相比,Spark有以下優點:node
目標:web
架構及生態:算法
Spark與hadoop:shell
運行流程及特色:數據庫
Spark運行特色:多線程
經常使用術語:架構
Spark運行模式:框架
standalone: 獨立集羣運行模式機器學習
yarn: (參考:http://blog.csdn.net/gamer_gyt/article/details/51833681)分佈式
Spark Cluster模式:
Spark Client 和 Spark Cluster的區別:
思考: 咱們在使用Spark提交job時使用的哪一種模式?
RDD運行流程: