Spark 官網閱讀筆記

時間 2020-12-26

原文原文鏈接

1.spark讀取本地文件系統：則該文件也必須可以在工作節點上的相同路徑上訪問。所以需要將文件複製到所有work 節點或使用網絡安裝的共享文件系統。 2.group by key 沒有reduceBykey， aggregateBykey高效，（後者是同時分區排序） 3.accumulator 累加器的使用 4.broadcast variables 廣播變量的使用 5：Dat

>>阅读原文<<