一、下載
預編譯 spark-2.2.0-bin-hadoop2.7.tgz 源碼編譯 略java
二、安裝 解壓 tar -xzvf spark-2.2.0-bin-hadoop2.7.tgz 移動 mv spark-2.2.0-bin-hadoop2.7 /usr/soft/ 配置環境變量 export SPARK_HOME=/usr/soft/spark-2.2.0-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin 運行 spark-shell spark-shell local[4] spark-shell --master local[4]python
三、hadoop maxtemp wordCountshell
四、spark-shell sc: SparkContextapache
scala> val file = sc.textFile("/root/aa.txt") file: org.apache.spark.rdd.RDD[String] = /root/aa.txt MapPartitionsRDD[1] at textFile at <console>:24 scala> file.count() res0: Long = 11
scala> file.first() res1: String = hello dkfdfmaven
五、Resilient Distributed Dataset 彈性分佈式數據集,自動重構取得恢復丟失的分區數據分佈式
六、經過編譯方式安裝spark 下載源碼 解壓 使用maven編譯源碼oop
輕量級高速集羣計算。 針對大規模的數據處理快速通用的引擎。 比hadoop的MR的內存計算快100倍,磁盤10倍 易於使用,能夠使用java,scala,python,R語言spa
提供了80多個高級操做scala