Spark入門（一）--用Spark-Shell初嘗Spark滋味

時間 2019-11-09

標籤 spark 入門 shell 滋味欄目 Spark 简体版

原文原文鏈接

Spark-Shell的使用

執行scala命令的spark-shell

進入spark的sbin目錄，打開鍵入python

./spark-shell
複製代碼

便可進入spark-shell的目錄 shell

spark-shell運行過程從上層來看，每個spark應用都是由驅動器程序發起集羣上的並行操做，在spark-shell中驅動器程序就是spark-shell自己。驅動器經過SparkContext對象來訪問spark。事實上在shell啓動時就建立了一個SparkContext的對象，其變量是sc，經過shell來查看sc以下bash

經過sc來讀取文件：oop

hello文件中的內容爲spa

u'you,jump i,jump you,jump i,jump u,jump 複製代碼

咱們在命令行鍵入命令行

val lines = sc.textFile("/spark/hello」) lines.count() lines.first() 複製代碼

這裏注意到，因爲個人sapark是在hadoop集羣環境下的，因此這裏完整的目錄能夠理解成hdfs:///spark/hello。scala

以上這條命令，就把spark目錄下hello文件裝載到sc當中，但事實上，因爲spark的懶加載，此時的文件只有在被操做時纔會真正被讀取，即lines.count()和lines.first()被執行時，纔回去讀取內容code

執行python命令的spark-shell

固然咱們也能夠用進入執行python命令的spark-shell。方法以下進入spark的sbin目錄，打開鍵入cdn

./pyspark-shell
複製代碼

經過python-shell統計hadoop文件目錄下的 /spark/hello文件，以下對象

lines = sc.textFile('/spark/hello’) lines.count() lines.first() 複製代碼

結果以下：

到這裏咱們的spark-shell就算是正常執行，其中

讀取/spark/hello文件：

lines = sc.textFile('/spark/hello’) 複製代碼

獲取總行數：

lines.count()
複製代碼

第一行內容：

lines.first()
複製代碼

相關標籤/搜索

spark&spark

spark

滋味

flume+spark+hive+spark

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。