進入spark的sbin目錄,打開鍵入python
./spark-shell
複製代碼
便可進入spark-shell的目錄 shell
spark-shell運行過程從上層來看,每個spark應用都是由驅動器程序發起集羣上的並行操做,在spark-shell中驅動器程序就是spark-shell自己。驅動器經過SparkContext對象來訪問spark。事實上在shell啓動時就建立了一個SparkContext的對象,其變量是sc,經過shell來查看sc以下bash
經過sc來讀取文件:oop
hello文件中的內容爲spa
u'you,jump i,jump you,jump i,jump u,jump 複製代碼
咱們在命令行鍵入命令行
val lines = sc.textFile("/spark/hello」) lines.count() lines.first() 複製代碼
這裏注意到,因爲個人sapark是在hadoop集羣環境下的,因此這裏完整的目錄能夠理解成hdfs:///spark/hello。scala
以上這條命令,就把spark目錄下hello文件裝載到sc當中,但事實上,因爲spark的懶加載,此時的文件只有在被操做時纔會真正被讀取,即lines.count()和lines.first()被執行時,纔回去讀取內容code
固然咱們也能夠用進入執行python命令的spark-shell。方法以下 進入spark的sbin目錄,打開鍵入cdn
./pyspark-shell
複製代碼
經過python-shell統計hadoop文件目錄下的 /spark/hello文件,以下對象
lines = sc.textFile('/spark/hello’) lines.count() lines.first() 複製代碼
結果以下:
到這裏咱們的spark-shell就算是正常執行,其中
讀取/spark/hello文件:
lines = sc.textFile('/spark/hello’) 複製代碼
獲取總行數:
lines.count()
複製代碼
第一行內容:
lines.first()
複製代碼