Spark知識整理

Spark是什麼?架構

基於內存計算的大數據並行計算框架框架

2009年誕生佈局

全棧多計算範式的高效數據流水線大數據

 

Spark相比MapReduce的優點orm

1.中間結果輸出blog

2.數據格式和內存佈局內存

3.執行策略io

4.任務調度的開銷form

 

Spark生態系統BDAStransform

 Berkeley Data Analytics Stack

 

Spark架構

Spark計算模型

RDD(transformation  and action)

算子分類:value型Transformation算子(map,union,filter,cache),key-value型Transformation算子(mapValues,reduceByKey,join),action算子(foreach,saveAsTextFile,collect,count,reduce)

相關文章
相關標籤/搜索