spark之廣播共享變量broadcast

廣播變量用來把變量在全部節點的內存之間進行共享,這樣的方式尤爲是在分佈式集羣中進行並行計算提供了很大的便利,若是數據集很大,須要分佈式存儲到各個DataNode上,根據「計算向數據靠近」的原則,將每個DataNode上都要使用的變量(相似全局變量)進行廣播,而不是在每個DataNode上產生一個副本,好比利用sc.broadcast將聚類中心設置爲一個只讀變量,並廣播給每個集羣中的機器進行共享相同
相關文章
相關標籤/搜索