Spark讀取文件

spark默認讀取的是hdfs上的文件。shell

若是讀取本地文件,則須要加file:///usr/local/spark/README.md。 (測試時候發現,本地文件必須在spark的安裝路徑內部或者平行)oop

讀取hdfs文件, 能夠這樣指定路徑 hdfs://ns1/tmp/test.txt。測試

若是不指定任何前綴,則使用hdfs的默認路徑/user/data/spa

 

啓動spark-shell:3d

因爲已經在spark-defaults.conf中指定了spark.master,因此啓動時默認以standalone模式加載blog

1. 讀取本地文件: hadoop

spark安裝路徑下/usr/local/spark/README.mdspark

然鵝使用其餘路徑 /home/hadoop/king/spark/wordcount/data/test.txtio

 

2. 讀取hdfs文件 ast

hdfs://ns1/tmp/test.txt

 

3. 不加任何前綴

默認識別的hadoop用戶的目錄,將剛纔的test.txt拷貝到目錄:hdfs://ns1/user/hadoop/ 

 

再次讀取:

 

在實際的使用中推薦使用第二種方式處理數據。

相關文章
相關標籤/搜索