spark 大型項目實戰(二十九): --性能調優之在實際項目中廣播大變量

這種默認的,task執行的算子中,使用了外部的變量,每個task都會獲取一份變量的副本,有什麼缺點呢?在什麼情況下,會出現性能上的惡劣的影響呢? map,本身是不小,存放數據的一個單位是Entry,還有可能會用鏈表的格式的來存放Entry鏈條。所以map是比較消耗內存的數據格式。 比如,map是1M。總共,你前面調優都調的特好,資源給的到位,配合着資源,並行度調節的絕對到位,1000個task。大
相關文章
相關標籤/搜索