spark默認讀取的是hdfs上的文件。shell
若是讀取本地文件,則須要加file:///usr/local/spark/README.md。 (測試時候發現,本地文件必須在spark的安裝路徑內部或者平行)oop
讀取hdfs文件, 能夠這樣指定路徑 hdfs://ns1/tmp/test.txt。測試
若是不指定任何前綴,則使用hdfs的默認路徑/user/data/spa
啓動spark-shell:3d
因爲已經在spark-defaults.conf中指定了spark.master,因此啓動時默認以standalone模式加載blog
1. 讀取本地文件: hadoop
spark安裝路徑下/usr/local/spark/README.mdspark
然鵝使用其餘路徑 /home/hadoop/king/spark/wordcount/data/test.txtio
2. 讀取hdfs文件 ast
hdfs://ns1/tmp/test.txt
3. 不加任何前綴
默認識別的hadoop用戶的目錄,將剛纔的test.txt拷貝到目錄:hdfs://ns1/user/hadoop/
再次讀取:
在實際的使用中推薦使用第二種方式處理數據。