Spark core基礎
Spark
RDD的五大特性
- RDD是由一系列的Partition組成的,若是Spark計算的數據是在HDFS上那麼partition個數是與block數一致(大多數狀況)
- RDD是有一系列的依賴關係,有利於Spark計算的容錯
- RDD中每個算子其實是做用在每個partition的
- spark中分區器是做用在kv格式的RDD上的,若是這個RDD中存儲的數據是二元組類型的話
- spark中的RDD會提供一系列的最佳位子
大概執行流程
Driver大數據
- 分發task,實際上在分發task以前會調用RDD的一個方法(可以獲取每個partition的位置)
- 會將每個task的計算結果拉回到Dirver端---大數據處理!!每個task計算結果有可能會很是的大,容易形成OMM,很危險
- 強調: Driver是一個JVM進程
Woker進程spa
算子
Transformation類算子orm
- 特色,懶執行!!須要一個action類算子觸發
- 具體的算子 map,filter,reduceByKey,flatMap
Action類算子進程
- 特色:會當即觸發任務的執行
- 具體的算子 foreach,count
歡迎關注本站公眾號,獲取更多信息