Spark是什麼?架構
基於內存計算的大數據並行計算框架框架
2009年誕生佈局
全棧多計算範式的高效數據流水線大數據
Spark相比MapReduce的優點orm
1.中間結果輸出blog
2.數據格式和內存佈局內存
3.執行策略io
4.任務調度的開銷form
Spark生態系統BDAStransform
Berkeley Data Analytics Stack
Spark架構
Spark計算模型
RDD(transformation and action)
算子分類:value型Transformation算子(map,union,filter,cache),key-value型Transformation算子(mapValues,reduceByKey,join),action算子(foreach,saveAsTextFile,collect,count,reduce)