Spark項目實戰-實際項目中常見的優化點-廣播大變量

首先我們從這篇博客簡單瞭解下Spark中的共享變量。然後我們在這裏舉個簡單例子更加深入的瞭解一下爲什麼需要廣播大變量。 假設,我們現在有一個外部變量A(大小10M),然後有三個Task都需要用到變量A。 在這種默認的,task執行的算子中使用了外部的變量,每個task都會獲取一份變量的副本,通俗點說就是每個task中都會有一個變量A,那麼3個task並行執行的時候就會佔掉30M內存。 這種情況有什
相關文章
相關標籤/搜索