spark rdd之間的寬依賴和窄依賴

①task從hdfs讀取數據到linesRDD中,同一批task對linesRDD進行flatMap操作; ②繼續對wordsRDD做map操作,記錄單詞次數 ③這個地方會劃分一個stage,新的一批task會提交到executor上,對pairs RDD做reduceByKey操作 窄依賴(narrow dependency):每一個父RDD的Partition最多被子RDD的一個Partiti
相關文章
相關標籤/搜索