這裏只使用Spark的Python操做和接口,其餘語言應爲不熟悉,因此先不寫在這裏。python
能夠直接從官方網站下載 pre-build 版本,能夠直接在電腦上運行,離線安裝也是能夠的,好比說針對Python 2.7的link。shell
解壓:apache
tar zxvf spark-2.1.0-bin-hadoop2.7.tgz
解壓以後,其目錄爲以下:小程序
$ ls LICENSE README.md conf jars sbin NOTICE RELEASE data licenses yarn R bin examples python
其中的幾個目錄能夠先認識一下:bash
在Spark的目錄下,執行:分佈式
./bin/pyspark
便可載入Python Shell,成功以後的界面以下:函數
到這就表明Spark完成了部署,可使用 Control + D 退出 SparkShell。oop
在解釋器中執行下面的一段程序試試:學習
>>> lines = sc.textFile("README.md") >>> pythonLines = lines.filter(lambda line: "Python" in line)
上面兩行代碼分別爲:網站
sc
,從README.md文件建立一個 文本文件類型的 RDD
。下面解釋 RDD 和 SparkContext 這兩個名詞:
sc
。而後能夠用執行 .first()
和 .count()
兩個方法來查看: