Spark core基礎

Spark

RDD的五大特性

  1. RDD是由一系列的Partition組成的,若是Spark計算的數據是在HDFS上那麼partition個數是與block數一致(大多數狀況)
  2. RDD是有一系列的依賴關係,有利於Spark計算的容錯
  3. RDD中每個算子其實是做用在每個partition的
  4. spark中分區器是做用在kv格式的RDD上的,若是這個RDD中存儲的數據是二元組類型的話
  5. spark中的RDD會提供一系列的最佳位子

大概執行流程

Driver大數據

  1. 分發task,實際上在分發task以前會調用RDD的一個方法(可以獲取每個partition的位置)
  2. 會將每個task的計算結果拉回到Dirver端---大數據處理!!每個task計算結果有可能會很是的大,容易形成OMM,很危險
  3. 強調: Driver是一個JVM進程

Woker進程spa

算子

Transformation類算子orm

  1. 特色,懶執行!!須要一個action類算子觸發
  2. 具體的算子 map,filter,reduceByKey,flatMap

Action類算子進程

  1. 特色:會當即觸發任務的執行
  2. 具體的算子 foreach,count
相關文章
相關標籤/搜索