Spark共享變量-累加器和廣播變量

一般狀況下,當向Spark操做(如map,reduce)傳遞一個函數時,它會在一個遠程集羣節點上執行,它會使用函數中全部變量的副本。這些變量被複制到全部的機器上,遠程機器上並無被更新的變量會向驅動程序回傳。在任務之間使用通用的,支持讀寫的共享變量是低效的。儘管如此,Spark提供了兩種有限類型的共享變量,廣播變量和累加器。程序員 1.累加器 提供了將工做節點中的值聚合到驅動器程序中的簡單語法。累加
相關文章
相關標籤/搜索