spark-wordcount詳解、數據流向和spark-map系列算子

時間 2021-01-21

原文原文鏈接

spark-wordcount詳解、數據流向: 單個maptask:首先通過sc.textfile（）將數據讀取出來放在linesRdd裏，然後通過flatMap算子進行拆分到wordsRdd中，然後通過map算子對單詞進行計數到countRdd中,然後通過reduceBykey對所有countRdd中單詞出現的次數進行大聚合到resultRdd中，最後調用action算子觸發程序執行。

>>阅读原文<<