Spark core基礎

時間 2019-12-06

標籤 spark core 基礎欄目 Spark 简体版

原文原文鏈接

Spark

RDD的五大特性

RDD是由一系列的Partition組成的,若是Spark計算的數據是在HDFS上那麼partition個數是與block數一致(大多數狀況)
RDD是有一系列的依賴關係,有利於Spark計算的容錯
RDD中每個算子其實是做用在每個partition的
spark中分區器是做用在kv格式的RDD上的,若是這個RDD中存儲的數據是二元組類型的話
spark中的RDD會提供一系列的最佳位子

大概執行流程

Driver大數據

分發task,實際上在分發task以前會調用RDD的一個方法(可以獲取每個partition的位置)
會將每個task的計算結果拉回到Dirver端---大數據處理!!每個task計算結果有可能會很是的大,容易形成OMM,很危險
強調: Driver是一個JVM進程

Woker進程spa

算子

Transformation類算子orm

特色,懶執行!!須要一個action類算子觸發
具體的算子 map,filter,reduceByKey,flatMap

Action類算子進程

特色:會當即觸發任務的執行
具體的算子 foreach,count

相關文章

1. 08-Spark core基礎
2. Spark Core基礎01
3. Spark core基礎 -- 基本架構和RDD
4. Spark-Core應用詳解之基礎篇
5. spark基本概念——spark Core
6. [Spark基礎]--spark core參數優化(針對spark-2.x.x如下版本)
7. spark基礎-001
8. spark-sql基礎
9. Spark基礎 DAG
10. spark 基礎下
更多相關文章...
• Kotlin 基礎語法 - Kotlin 教程
• Scala 基礎語法 - Scala教程
• Kotlin學習（二）基本類型
• ☆基於Java Instrument的Agent實現

相關標籤/搜索

NodeJs基礎篇

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

1. 08-Spark core基礎
2. Spark Core基礎01
3. Spark core基礎 -- 基本架構和RDD
4. Spark-Core應用詳解之基礎篇
5. spark基本概念——spark Core
6. [Spark基礎]--spark core參數優化(針對spark-2.x.x如下版本)
7. spark基礎-001
8. spark-sql基礎
9. Spark基礎 DAG
10. spark 基礎下

>>更多相關文章<<