Spark API編程動手實戰-05-spark文件操做和debug

時間 2019-11-13

標籤 spark api 編程動手實戰文件 debug 欄目 Spark 简体版

原文原文鏈接

此次咱們以指定executor-memory參數的方式來啓動spark-shell：web

啓動成功了shell

在命令行中咱們指定了spark-shell運行暫用的每一個機器上的executor的內存爲1g大小，啓動成功後參看web頁面：app

從hdfs上讀取文件：oop

在命令行中返回的MappedRDD，使用toDebugString，能夠查看其lineage的關係：spa

能夠看出MappedRDD是從HadoopRDD轉換而來的命令行

再看下textFile的源代碼：orm

hadoopFile這個方法返回的是一個HadoopRDD，源碼以下所示：內存

而map方法產生的是一個MappedRDD：hadoop

下面進行一個簡單的wordcount操做：源碼

執行結果：

再次使用toDebugString，查看下依賴關係：

HadoopRDD -> MappedRDD -> FlatMappedRDD -> MappedRDD -> ShuffledRDD

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。