Spark架構:
關鍵名詞:
master
worker
executor
task
driver
Spark集羣啓動以後,是主從式架構(master--worker),95%的大數據架構都是主從式
hadoop-yarn:
Yarn:
主節點:resourcemanager管理整個集羣的資源
從節點:nodemanager 管理每一個服務器的資源
sparkcontext就是sparkcore的程序入口
flatmap = map + flattennode
Spark集羣:
打包Spark程序:
Spark任務提交:
RDD的建立:Sparkcore:
transformation和action原理:
transformation:map flatmap 至關因而建立新的RDD
action:savaastextfile,count
全部transformation操做具備lazy特性,在遇到action操做以前都不會運行的服務器
Spark等到action出現,再執行transformation實際上是Spark自身在作一個最佳的調優,用最高效的順序來執行全部的transformation(優化)架構