56、Spark性能優化之廣播共享數據

廣播共享數據原理.png 廣播共享數據 如果你的算子函數中,使用到了特別大的數據,那麼,這個時候,推薦將該數據進行廣播。這樣的話,就不至於將一個大數據拷貝到每一個task上去。而是給每個節點拷貝一份,然後節點上的task共享該數據。 這樣的話,就可以減少大數據在節點上的內存消耗。並且可以減少數據到節點的網絡傳輸消耗。 比如 val table = new Array[String](1000000
相關文章
相關標籤/搜索