Spark---性能調優之廣播共享數據

假設有一個map,1M,舉例。還算小的。如果你是從哪個表裏面讀取了一些維度數據,比方說,所有商品品類的信息,在某個算子函數中要使用到。100M。 1000個task。100G的數據,網絡傳輸。集羣瞬間因爲這個原因消耗掉100G的內存。 每個task拷貝一個變量的副本會造成什麼樣的影響? 這種默認的,task執行的算子中,使用了外部的變量,每個task都會獲取一份變量的副本,有什麼缺點呢?在什麼情況
相關文章
相關標籤/搜索