spark從入門到放棄二十四:Spark 性能優化(7)廣播共享變量

文章地址:http://www.haha174.top/article/details/254421 假設現在有一個配置文件很大又100M.默認的情況下算子函數使用到的外部的數據,會拷貝到每一個task中,此時如果使用到的外部的數據很大的話,那麼豈不是在各個節點都會佔用大量的內存!而且會產生大量的網絡傳輸,大量的網絡通信造成性能的開銷。 這種情況下就應該對外部大數據進行Broatcast 廣播,然
相關文章
相關標籤/搜索