Spark性能優化之如何使用廣播變量以及Kryo序列化

廣播變量 在Spark Application中,常常會使用到一個共享變量,衆所周知的,Spark是一個並行計算框架,對於這個變量,每個executor的task在訪問它的時候,都會去拷貝一份副本去使用。以下圖所示: java 對於這種默認方式,它會極大的系統的內存,咱們能夠假設一個集羣中有1024個task,這個共享變量大小假設爲1M,那麼就會去複製1024份到集羣上去,這樣就會有1個G的數據在
相關文章
相關標籤/搜索