Spark性能調優之廣播大變量

    本篇blog講述在實際spark項目中可能需要注意的一個性能調優的一個點,就是broadcast大變量。     默認的在spark作業中,task執行的算子中,使用了外部的變量,每個task都會獲取一份變量的副本,有什麼缺點呢?<br>map,本身是不小,存放數據的一個單位是Entry,還有可能會用鏈表的格式的來存放Entry鏈條。所以map是比較消耗內存的數據格式。比如,map是1M。
相關文章
相關標籤/搜索