Spark API編程動手實戰-05-spark文件操做和debug

此次 咱們以指定executor-memory參數的方式來啓動spark-shell:web



啓動成功了shell


在命令行中咱們指定了spark-shell運行暫用的每一個機器上的executor的內存爲1g大小,啓動成功後參看web頁面:app



從hdfs上讀取文件:oop



在命令行中返回的MappedRDD,使用toDebugString,能夠查看其lineage的關係:spa


能夠看出MappedRDD是從HadoopRDD轉換而來的命令行

再看下textFile的源代碼:orm



hadoopFile這個方法返回的是一個HadoopRDD,源碼以下所示:內存



而map方法產生的是一個MappedRDD:hadoop



下面進行一個簡單的wordcount操做:源碼


執行結果:


再次使用toDebugString,查看下依賴關係:


HadoopRDD -> MappedRDD -> FlatMappedRDD ->  MappedRDD -> ShuffledRDD 

相關文章
相關標籤/搜索