Spark 官網閱讀筆記

1.spark讀取本地文件系統: 則該文件也必須可以在工作節點上的相同路徑上訪問。所以需要將文件複製到所有work 節點或使用網絡安裝的共享文件系統。 2.group by key 沒有reduceBykey, aggregateBykey高效,(後者是同時分區排序) 3.accumulator 累加器的使用 4.broadcast variables 廣播變量的使用 5:Dat
相關文章
相關標籤/搜索