** 注意: **使用的是Hadoop的HDFS做爲持久層,須要先配置Hadooppython
# pyspark >>> lines = sc.textFile("/user/mint/README.md") # 建立一個名爲lines的RDD.首先要確保README.md在HDFS文件系統相應的路徑中.這裏的文檔是Spark在安裝目錄下,選擇其餘文檔. >>> lines.count() # 行數 >>> lines.first() # 顯示第一個元素,這裏就是第一行
若是運行出錯,能夠排查以下狀況:shell
README.md
沒有放在對應的文件>>> lines = sc.textFile("README.md") >>> lines.count() 99 >>> lines.first() u'# Apache Spark' >>> lines = sc.textFile("/user/mint/README.md") >>> lines.first() u'# Apache Spark'
# spark-shell scala> val lines = sc.textFile("README.md") lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24 scala> lines.count() res0: Long = 99 scala> lines.first() res1: String = # Apache Spark