Spark中的共享變量

spark兩種共享變量 spark中有兩種共享變量。分別爲廣播變量和累加器。 廣播變量主要用於高效分發較大的數據對象,累加器主要用於對信息進行聚合。 廣播變量 廣播變量允許我們將一個只讀的變量緩存在每臺機器上,而不用在任務之間傳遞變量。廣播變量可被用於有效地給每個節點一個大輸入數據集的副本。 廣播的數據被集羣不同節點共享,且默認存儲在內存中,讀取速度比較快。 Spark還嘗試使用高效地廣播算法來分
相關文章
相關標籤/搜索