此次 咱們以指定executor-memory參數的方式來啓動spark-shell:web
啓動成功了shell
在命令行中咱們指定了spark-shell運行暫用的每一個機器上的executor的內存爲1g大小,啓動成功後參看web頁面:app
從hdfs上讀取文件:oop
在命令行中返回的MappedRDD,使用toDebugString,能夠查看其lineage的關係:spa
能夠看出MappedRDD是從HadoopRDD轉換而來的命令行
再看下textFile的源代碼:orm
hadoopFile這個方法返回的是一個HadoopRDD,源碼以下所示:內存
而map方法產生的是一個MappedRDD:hadoop
下面進行一個簡單的wordcount操做:源碼
執行結果:
再次使用toDebugString,查看下依賴關係:
HadoopRDD -> MappedRDD -> FlatMappedRDD -> MappedRDD -> ShuffledRDD