04性能調優之廣播大變量

問題分析 Spark Application的Driver進程,其實就是我們寫的Spark作業打成的jar運行起來的進程,以隨機抽取map步驟爲例,其工作時過程大致爲:  這種默認的情況下,task執行的算子中使用了外部的變量,每個task都會獲取一份變量的副本,有什麼缺點呢?在什麼情況下會出現性能上的惡劣的影響呢? 因爲map本身是不小,存放數據的一個單位是Entry,還有可能會用鏈表的格式的來
相關文章
相關標籤/搜索