spark-wordcount詳解、數據流向和spark-map系列算子

spark-wordcount詳解、數據流向:     單個maptask:首先通過sc.textfile()將數據讀取出來放在linesRdd裏,然後通過flatMap算子進行拆分到wordsRdd中,然後通過map算子對單詞進行計數到countRdd中,然後通過reduceBykey對所有countRdd中單詞出現的次數進行大聚合到resultRdd中,最後調用action算子觸發程序執行。
相關文章
相關標籤/搜索