Spark讀取文件

時間 2019-12-08

標籤 spark 讀取文件欄目 Spark 简体版

原文原文鏈接

spark默認讀取的是hdfs上的文件。shell

若是讀取本地文件，則須要加file:///usr/local/spark/README.md。 (測試時候發現，本地文件必須在spark的安裝路徑內部或者平行)oop

讀取hdfs文件, 能夠這樣指定路徑 hdfs://ns1/tmp/test.txt。測試

若是不指定任何前綴，則使用hdfs的默認路徑/user/data/spa

啓動spark-shell:3d

因爲已經在spark-defaults.conf中指定了spark.master，因此啓動時默認以standalone模式加載blog

1. 讀取本地文件: hadoop

spark安裝路徑下/usr/local/spark/README.mdspark

然鵝使用其餘路徑 /home/hadoop/king/spark/wordcount/data/test.txtio

2. 讀取hdfs文件 ast

hdfs://ns1/tmp/test.txt

3. 不加任何前綴

默認識別的hadoop用戶的目錄，將剛纔的test.txt拷貝到目錄：hdfs://ns1/user/hadoop/

再次讀取：

在實際的使用中推薦使用第二種方式處理數據。

相關標籤/搜索