Spark系列--SparkCore(七)廣播變量和累加器

1、廣播變量   一般狀況下,當一個RDD的不少操做都須要使用driver中定義的變量時,每次操做,driver都要把變量發送給worker節點一次,若是這個變量中的數據很大的話,會產生很高的傳輸負載,致使執行效率下降。python   使用廣播變量可使程序高效地將一個很大的只讀數據發送給多個worker節點,並且對每一個worker節點只須要傳輸一次,每次操做時executor能夠直接獲取本地保
相關文章
相關標籤/搜索