Spark性能優化之如何使用廣播變量以及Kryo序列化

時間 2019-12-04

標籤 spark 性能優化如何使用廣播變量以及 kryo 序列欄目 Spark 简体版

原文原文鏈接

廣播變量在Spark Application中，常常會使用到一個共享變量，衆所周知的，Spark是一個並行計算框架，對於這個變量，每個executor的task在訪問它的時候，都會去拷貝一份副本去使用。以下圖所示： java 對於這種默認方式，它會極大的系統的內存，咱們能夠假設一個集羣中有1024個task，這個共享變量大小假設爲1M，那麼就會去複製1024份到集羣上去，這樣就會有1個G的數據在

>>阅读原文<<