共享變量與broadcast join

共享變量 一般,當在遠程集羣節點上執行傳遞給Spark操做(例如mapor reduce)的函數時,它將在函數中使用的全部變量的單獨副本上工做。這些變量被拷貝到每臺機器上。而且遠程計算機上的變量的更新不會傳播回驅動程序。這樣讀寫共享變量效率低下。可是,Spark確實爲兩種常見的使用模式提供了兩種有限類型的共享變量:廣播變量(broadcast variables)和計數器( accumulator
相關文章
相關標籤/搜索