spark性能優化指南

在大數據計算領域,Spark已經成爲了愈來愈流行、愈來愈受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各類不一樣類型的計算操做,應用範圍與前景很是普遍。在美團•大衆點評,已經有不少同窗在各類項目中嘗試使用Spark。大多數同窗(包括筆者在內),最初開始嘗試使用Spark的緣由很簡單,主要就是爲了讓大數據計算做業的執行速度更快、性能更高。web

然而,經過Spark開發出高性能的大數據計算做業,並非那麼簡單的。若是沒有對Spark做業進行合理的調優,Spark做業的執行速度可能會很慢,這樣就徹底體現不出Spark做爲一種快速大數據計算引擎的優點來。所以,想要用好Spark,就必須對其進行合理的性能優化。數組

Spark的性能調優其實是由不少部分組成的,不是調節幾個參數就能夠立竿見影提高做業性能的。咱們須要根據不一樣的業務場景以及數據狀況,對Spark做業進行綜合性的分析,而後進行多個方面的調節和優化,才能得到最佳性能。緩存

筆者根據以前的Spark做業開發經驗以及實踐積累,總結出了一套Spark做業的性能優化方案。整套方案主要分爲開發調優、資源調優、數據傾斜調優、shuffle調優幾個部分。開發調優和資源調優是全部Spark做業都須要注意和遵循的一些基本原則,是高性能Spark做業的基礎;數據傾斜調優,主要講解了一套完整的用來解決Spark做業數據傾斜的解決方案;shuffle調優,面向的是對Spark的原理有較深層次掌握和研究的同窗,主要講解了如何對Spark做業的shuffle運行過程以及細節進行調優。性能優化

本文做爲Spark性能優化指南的基礎篇,主要講解開發調優以及資源調優。網絡

開發調優
調優概述
Spark性能優化的第一步,就是要在開發Spark做業的過程當中注意和應用一些性能優化的基本原則。開發調優,就是要讓你們瞭解如下一些Spark基本開發原則,包括:RDD lineage設計、算子的合理使用、特殊操做的優化等。在開發過程當中,時時刻刻都應該注意以上原則,並將這些原則根據具體的業務以及實際的應用場景,靈活地運用到本身的Spark做業中。併發

原則一:避免建立重複的RDD
一般來講,咱們在開發一個Spark做業時,首先是基於某個數據源(好比Hive表或HDFS文件)建立一個初始的RDD;接着對這個RDD執行某個算子操做,而後獲得下一個RDD;以此類推,循環往復,直到計算出最終咱們須要的結果。在這個過程當中,多個RDD會經過不一樣的算子操做(好比map、reduce等)串起來,這個「RDD串」,就是RDD lineage,也就是「RDD的血緣關係鏈」。機器學習

咱們在開發過程當中要注意:對於同一份數據,只應該建立一個RDD,不能建立多個RDD來表明同一份數據。ide

一些Spark初學者在剛開始開發Spark做業時,或者是有經驗的工程師在開發RDD lineage極其冗長的Spark做業時,可能會忘了本身以前對於某一份數據已經建立過一個RDD了,從而致使對於同一份數據,建立了多個RDD。這就意味着,咱們的Spark做業會進行屢次重複計算來建立多個表明相同數據的RDD,進而增長了做業的性能開銷。svg

一個簡單的例子函數

// 須要對名爲「hello.txt」的HDFS文件進行一次map操做,再進行一次reduce操做。也就是說,須要對一份數據執行兩次算子操做。

// 錯誤的作法:對於同一份數據執行屢次算子操做時,建立多個RDD。
// 這裏執行了兩次textFile方法,針對同一個HDFS文件,建立了兩個RDD出來,而後分別對每一個RDD都執行了一個算子操做。
// 這種狀況下,Spark須要從HDFS上兩次加載hello.txt文件的內容,並建立兩個單獨的RDD;第二次加載HDFS文件以及建立RDD的性能開銷,很明顯是白白浪費掉的。
val rdd1 = sc.textFile(「hdfs://192.168.0.1:9000/hello.txt」)
rdd1.map(…)
val rdd2 = sc.textFile(「hdfs://192.168.0.1:9000/hello.txt」)
rdd2.reduce(…)

// 正確的用法:對於一份數據執行屢次算子操做時,只使用一個RDD。
// 這種寫法很明顯比上一種寫法要好多了,由於咱們對於同一份數據只建立了一個RDD,而後對這一個RDD執行了屢次算子操做。
// 可是要注意到這裏爲止優化尚未結束,因爲rdd1被執行了兩次算子操做,第二次執行reduce操做的時候,還會再次從源頭處從新計算一次rdd1的數據,所以仍是會有重複計算的性能開銷。
// 要完全解決這個問題,必須結合「原則三:對屢次使用的RDD進行持久化」,才能保證一個RDD被屢次使用時只被計算一次。
val rdd1 = sc.textFile(「hdfs://192.168.0.1:9000/hello.txt」)
rdd1.map(…)
rdd1.reduce(…)
原則二:儘量複用同一個RDD
除了要避免在開發過程當中對一份徹底相同的數據建立多個RDD以外,在對不一樣的數據執行算子操做時還要儘量地複用一個RDD。好比說,有一個RDD的數據格式是key-value類型的,另外一個是單value類型的,這兩個RDD的value數據是徹底同樣的。那麼此時咱們能夠只使用key-value類型的那個RDD,由於其中已經包含了另外一個的數據。對於相似這種多個RDD的數據有重疊或者包含的狀況,咱們應該儘可能複用一個RDD,這樣能夠儘量地減小RDD的數量,從而儘量減小算子執行的次數。

一個簡單的例子

// 錯誤的作法。

// 有一個<Long, String>格式的RDD,即rdd1。
// 接着因爲業務須要,對rdd1執行了一個map操做,建立了一個rdd2,而rdd2中的數據僅僅是rdd1中的value值而已,也就是說,rdd2是rdd1的子集。
JavaPairRDD<Long, String> rdd1 = …
JavaRDD rdd2 = rdd1.map(…)

// 分別對rdd1和rdd2執行了不一樣的算子操做。
rdd1.reduceByKey(…)
rdd2.map(…)

// 正確的作法。

// 上面這個case中,其實rdd1和rdd2的區別無非就是數據格式不一樣而已,rdd2的數據徹底就是rdd1的子集而已,卻建立了兩個rdd,並對兩個rdd都執行了一次算子操做。
// 此時會由於對rdd1執行map算子來建立rdd2,而多執行一次算子操做,進而增長性能開銷。

// 其實在這種狀況下徹底能夠複用同一個RDD。
// 咱們可使用rdd1,既作reduceByKey操做,也作map操做。
// 在進行第二個map操做時,只使用每一個數據的tuple._2,也就是rdd1中的value值,便可。
JavaPairRDD<Long, String> rdd1 = …
rdd1.reduceByKey(…)
rdd1.map(tuple._2…)

// 第二種方式相較於第一種方式而言,很明顯減小了一次rdd2的計算開銷。
// 可是到這裏爲止,優化尚未結束,對rdd1咱們仍是執行了兩次算子操做,rdd1實際上仍是會被計算兩次。
// 所以還須要配合「原則三:對屢次使用的RDD進行持久化」進行使用,才能保證一個RDD被屢次使用時只被計算一次。
原則三:對屢次使用的RDD進行持久化
當你在Spark代碼中屢次對一個RDD作了算子操做後,恭喜,你已經實現Spark做業第一步的優化了,也就是儘量複用RDD。此時就該在這個基礎之上,進行第二步優化了,也就是要保證對一個RDD執行屢次算子操做時,這個RDD自己僅僅被計算一次。

Spark中對於一個RDD執行屢次算子的默認原理是這樣的:每次你對一個RDD執行一個算子操做時,都會從新從源頭處計算一遍,計算出那個RDD來,而後再對這個RDD執行你的算子操做。這種方式的性能是不好的。

所以對於這種狀況,咱們的建議是:對屢次使用的RDD進行持久化。此時Spark就會根據你的持久化策略,將RDD中的數據保存到內存或者磁盤中。之後每次對這個RDD進行算子操做時,都會直接從內存或磁盤中提取持久化的RDD數據,而後執行算子,而不會從源頭處從新計算一遍這個RDD,再執行算子操做。

對屢次使用的RDD進行持久化的代碼示例

// 若是要對一個RDD進行持久化,只要對這個RDD調用cache()和persist()便可。

// 正確的作法。
// cache()方法表示:使用非序列化的方式將RDD中的數據所有嘗試持久化到內存中。
// 此時再對rdd1執行兩次算子操做時,只有在第一次執行map算子時,纔會將這個rdd1從源頭處計算一次。
// 第二次執行reduce算子時,就會直接從內存中提取數據進行計算,不會重複計算一個rdd。
val rdd1 = sc.textFile(「hdfs://192.168.0.1:9000/hello.txt」).cache()
rdd1.map(…)
rdd1.reduce(…)

// persist()方法表示:手動選擇持久化級別,並使用指定的方式進行持久化。
// 好比說,StorageLevel.MEMORY_AND_DISK_SER表示,內存充足時優先持久化到內存中,內存不充足時持久化到磁盤文件中。
// 並且其中的_SER後綴表示,使用序列化的方式來保存RDD數據,此時RDD中的每一個partition都會序列化成一個大的字節數組,而後再持久化到內存或磁盤中。
// 序列化的方式能夠減小持久化的數據對內存/磁盤的佔用量,進而避免內存被持久化數據佔用過多,從而發生頻繁GC。
val rdd1 = sc.textFile(「hdfs://192.168.0.1:9000/hello.txt」).persist(StorageLevel.MEMORY_AND_DISK_SER)
rdd1.map(…)
rdd1.reduce(…)
對於persist()方法而言,咱們能夠根據不一樣的業務場景選擇不一樣的持久化級別。
Spark的持久化級別

持久化級別 含義解釋
MEMORY_ONLY 使用未序列化的Java對象格式,將數據保存在內存中。若是內存不夠存放全部的數據,則數據可能就不會進行持久化。那麼下次對這個RDD執行算子操做時,那些沒有被持久化的數據,須要從源頭處從新計算一遍。這是默認的持久化策略,使用cache()方法時,實際就是使用的這種持久化策略。
MEMORY_AND_DISK 使用未序列化的Java對象格式,優先嚐試將數據保存在內存中。若是內存不夠存放全部的數據,會將數據寫入磁盤文件中,下次對這個RDD執行算子時,持久化在磁盤文件中的數據會被讀取出來使用。
MEMORY_ONLY_SER 基本含義同MEMORY_ONLY。惟一的區別是,會將RDD中的數據進行序列化,RDD的每一個partition會被序列化成一個字節數組。這種方式更加節省內存,從而能夠避免持久化的數據佔用過多內存致使頻繁GC。
MEMORY_AND_DISK_SER 基本含義同MEMORY_AND_DISK。惟一的區別是,會將RDD中的數據進行序列化,RDD的每一個partition會被序列化成一個字節數組。這種方式更加節省內存,從而能夠避免持久化的數據佔用過多內存致使頻繁GC。
DISK_ONLY 使用未序列化的Java對象格式,將數據所有寫入磁盤文件中。
MEMORY_ONLY_2, MEMORY_AND_DISK_2, 等等. 對於上述任意一種持久化策略,若是加上後綴_2,表明的是將每一個持久化的數據,都複製一份副本,並將副本保存到其餘節點上。這種基於副本的持久化機制主要用於進行容錯。假如某個節點掛掉,節點的內存或磁盤中的持久化數據丟失了,那麼後續對RDD計算時還可使用該數據在其餘節點上的副本。若是沒有副本的話,就只能將這些數據從源頭處從新計算一遍了。
如何選擇一種最合適的持久化策略

默認狀況下,性能最高的固然是MEMORY_ONLY,但前提是你的內存必須足夠足夠大,能夠綽綽有餘地存放下整個RDD的全部數據。由於不進行序列化與反序列化操做,就避免了這部分的性能開銷;對這個RDD的後續算子操做,都是基於純內存中的數據的操做,不須要從磁盤文件中讀取數據,性能也很高;並且不須要複製一份數據副本,並遠程傳送到其餘節點上。可是這裏必需要注意的是,在實際的生產環境中,恐怕可以直接用這種策略的場景仍是有限的,若是RDD中數據比較多時(好比幾十億),直接用這種持久化級別,會致使JVM的OOM內存溢出異常。

若是使用MEMORY_ONLY級別時發生了內存溢出,那麼建議嘗試使用MEMORY_ONLY_SER級別。該級別會將RDD數據序列化後再保存在內存中,此時每一個partition僅僅是一個字節數組而已,大大減小了對象數量,並下降了內存佔用。這種級別比MEMORY_ONLY多出來的性能開銷,主要就是序列化與反序列化的開銷。可是後續算子能夠基於純內存進行操做,所以性能整體仍是比較高的。此外,可能發生的問題同上,若是RDD中的數據量過多的話,仍是可能會致使OOM內存溢出的異常。

若是純內存的級別都沒法使用,那麼建議使用MEMORY_AND_DISK_SER策略,而不是MEMORY_AND_DISK策略。由於既然到了這一步,就說明RDD的數據量很大,內存沒法徹底放下。序列化後的數據比較少,能夠節省內存和磁盤的空間開銷。同時該策略會優先儘可能嘗試將數據緩存在內存中,內存緩存不下才會寫入磁盤。

一般不建議使用DISK_ONLY和後綴爲_2的級別:由於徹底基於磁盤文件進行數據的讀寫,會致使性能急劇下降,有時還不如從新計算一次全部RDD。後綴爲_2的級別,必須將全部數據都複製一份副本,併發送到其餘節點上,數據複製以及網絡傳輸會致使較大的性能開銷,除非是要求做業的高可用性,不然不建議使用。

原則四:儘可能避免使用shuffle類算子
若是有可能的話,要儘可能避免使用shuffle類算子。由於Spark做業運行過程當中,最消耗性能的地方就是shuffle過程。shuffle過程,簡單來講,就是將分佈在集羣中多個節點上的同一個key,拉取到同一個節點上,進行聚合或join等操做。好比reduceByKey、join等算子,都會觸發shuffle操做。

shuffle過程當中,各個節點上的相同key都會先寫入本地磁盤文件中,而後其餘節點須要經過網絡傳輸拉取各個節點上的磁盤文件中的相同key。並且相同key都拉取到同一個節點進行聚合操做時,還有可能會由於一個節點上處理的key過多,致使內存不夠存放,進而溢寫到磁盤文件中。所以在shuffle過程當中,可能會發生大量的磁盤文件讀寫的IO操做,以及數據的網絡傳輸操做。磁盤IO和網絡數據傳輸也是shuffle性能較差的主要緣由。

所以在咱們的開發過程當中,能避免則儘量避免使用reduceByKey、join、distinct、repartition等會進行shuffle的算子,儘可能使用map類的非shuffle算子。這樣的話,沒有shuffle操做或者僅有較少shuffle操做的Spark做業,能夠大大減小性能開銷。

Broadcast與map進行join代碼示例

// 傳統的join操做會致使shuffle操做。
// 由於兩個RDD中,相同的key都須要經過網絡拉取到一個節點上,由一個task進行join操做。
val rdd3 = rdd1.join(rdd2)

// Broadcast+map的join操做,不會致使shuffle操做。
// 使用Broadcast將一個數據量較小的RDD做爲廣播變量。
val rdd2Data = rdd2.collect()
val rdd2DataBroadcast = sc.broadcast(rdd2Data)

// 在rdd1.map算子中,能夠從rdd2DataBroadcast中,獲取rdd2的全部數據。
// 而後進行遍歷,若是發現rdd2中某條數據的key與rdd1的當前數據的key是相同的,那麼就斷定能夠進行join。
// 此時就能夠根據本身須要的方式,將rdd1當前數據與rdd2中能夠鏈接的數據,拼接在一塊兒(String或Tuple)。
val rdd3 = rdd1.map(rdd2DataBroadcast…)

// 注意,以上操做,建議僅僅在rdd2的數據量比較少(好比幾百M,或者一兩G)的狀況下使用。
// 由於每一個Executor的內存中,都會駐留一份rdd2的全量數據。
原則五:使用map-side預聚合的shuffle操做
若是由於業務須要,必定要使用shuffle操做,沒法用map類的算子來替代,那麼儘可能使用能夠map-side預聚合的算子。

所謂的map-side預聚合,說的是在每一個節點本地對相同的key進行一次聚合操做,相似於MapReduce中的本地combiner。map-side預聚合以後,每一個節點本地就只會有一條相同的key,由於多條相同的key都被聚合起來了。其餘節點在拉取全部節點上的相同key時,就會大大減小須要拉取的數據數量,從而也就減小了磁盤IO以及網絡傳輸開銷。一般來講,在可能的狀況下,建議使用reduceByKey或者aggregateByKey算子來替代掉groupByKey算子。由於reduceByKey和aggregateByKey算子都會使用用戶自定義的函數對每一個節點本地的相同key進行預聚合。而groupByKey算子是不會進行預聚合的,全量的數據會在集羣的各個節點之間分發和傳輸,性能相對來講比較差。

好比,分別基於reduceByKey和groupByKey進行單詞計數。其中第一張圖是groupByKey的原理圖,能夠看到,沒有進行任何本地聚合時,全部數據都會在集羣節點之間傳輸;第二張圖是reduceByKey的原理圖,能夠看到,每一個節點本地的相同key數據,都進行了預聚合,而後才傳輸到其餘節點上進行全局聚合。