Spark入門學習資源:Spark入門系列實驗課程。html
Spark是UC Berkeley AMP lab開發的一個集羣計算的框架,相似於Hadoop,但有不少的區別。最大的優化是讓計算任務的中間結果能夠存儲在內存中,不須要每次都寫入HDFS,更適用於須要迭代的MapReduce算法場景中,能夠得到更好的性能提高。例如一次排序測試中,對100TB數據進行排序,Spark比Hadoop快三倍,而且只須要十分之一的機器。Spark集羣目前最大的能夠達到8000節點,處理的數據達到PB級別,在互聯網企業中應用很是普遍。前端
寫的很好的一篇大數據技術生態圈介紹文章,層次條理分明,內容詳盡。推薦必讀。算法
這個頁面列舉了部分使用Spark的公司和組織,有使用場景的介紹,可作簡單瞭解。apache
這篇介紹是我看到過最詳盡的,講到不少Spark基本原理和對比Hadoop的優點,推薦必讀。框架
有不少想要學習Spark的小夥伴都在自學,實驗樓最近整理了一系列的spark入門教程,並提供線上配套的練習環境,但願對Spark學習者有所幫助~機器學習
Spark線上實驗環境:分佈式
Spark生態圈(圖來自這裏):函數
下面依照上圖,對Spark入門系列課程作介紹。工具
Spark SQL 是一個分佈式查詢引擎,在這個教程裏你能夠學習到 Spark SQL 的基礎知識和經常使用 API 用法,瞭解經常使用的數學和統計函數。最後將經過一個分析股票價格與石油價格關係的實例進一步學習如何利用 Spark SQL 分析數據。oop
Spark Streaming 適用於實時處理流式數據。該教程帶你學習 Spark Streaming 的工做機制,瞭解 Streaming 應用的基本結構,以及如何在 Streaming 應用中附加 SQL 查詢。
附帶一張Streaming圖:
這個教程你能夠了解到 Spark 的 MLlib 庫相關知識,掌握 MLlib 的幾個基本數據類型,而且能夠動手練習如何經過機器學習中的一些算法來推薦電影。
GraphX是Spark用於解決圖和並行圖計算問題的新組件。GraphX經過RDD的擴展,在其中引入了一個新的圖抽象,即頂點和邊帶有特性的有向多重圖,提供了一些基本運算符和優化了的Pregel API,來支持圖計算。
GraphX包含了一些用於簡化圖分析任務的的圖計算算法。你能夠經過圖操做符來直接調用其中的方法。這個教程中講解這些算法的含義,以及如何實現它們。
SparkR是一個提供輕量級前端的R包,集成了Spark的分佈式計算和存儲等特性。這個教程將以較爲輕鬆的方式帶你學習如何在SparkR中建立和操做DataFrame,如何應用SQL查詢和機器學習算法等。
DataFrame讓Spark具有了處理大規模結構化數據的能力,在比原有的RDD轉化方式更加易用、計算性能更好。這個教程經過一個簡單的數據集分析任務,講解DataFrame的由來、構建方式以及一些經常使用操做。
這個教程經過更加深刻的講解,使用真實的數據集,並結合實際問題分析過程做爲引導,旨在讓Spark學習者掌握DataFrame的高級操做技巧,如建立DataFrame的兩種方式、UDF等。
Sqoop 是大數據環境中重要的是數據轉換工具,這個教程對Sqoop 的安裝配置進行了詳細的講解,並列舉了Sqoop 在數據遷移過程當中基本操做指令。
以上9個教程比較適合有必定的Spark基礎的人學習。
這個教程是一個系統性的教程,總共15個小節,帶你親身體驗Spark大數據分析的魅力,課程中能夠實踐:
Spark,Scala,Python,Spark Streaming,SparkSQL,MLlib,GraphX,IndexedRDD,SparkR,Tachyon,KeystoneML,BlinkDB等技術點,無疑是學習Spark最快的上手教程!
這個教程較爲系統,很是適合零基礎的人進行學習。
但願以上10個教程能夠幫助想入門Spark的人技術更上一層樓。