Spark 共享變量:廣播變量、累加器

通常,如下操作rdd.transformation(func),func所需要的外部變量都會以副本的形式從Driver端被髮送到每個Executor的每個Task,當Task數目有成百上千個時,這種方式就非常低效;同時每個Task中變量的更新是在本地,也不會被傳回Driver端。爲此,Spark提供了兩種類型的共享變量:廣播變量、累加器。 廣播變量 廣播變量,Execoutor中的只讀變量。在Dr
相關文章
相關標籤/搜索