Spark學習總結

1、spark自定義類在Driver端和Executor的傳輸問題 在一個map算子中 new class。每來一條數據將新建一個對象,每個對象都要進行序列化,將大量消耗內存和網絡帶寬 在Driver端new class發送到Executor。對象將會被髮送到每一個task上,若是每一個Executor有多個task,將佔用過多內存和網絡帶寬(補充:能夠在map端實例化對象,只實例化一次。就會減小
相關文章
相關標籤/搜索