Spark是UC Berkeley AMP lab開發的一個集羣計算的框架,相似於Hadoop,但有不少的區別。最大的優化是讓計算任務的中間結果能夠存儲在內存中,不須要每次都寫入HDFS,更適用於須要迭代的MapReduce算法場景中,能夠得到更好的性能提高。html
例如一次排序測試中,對100TB數據進行排序,Spark比Hadoop快三倍,而且只須要十分之一的機器。Spark集羣目前最大的能夠達到8000節點,處理的數據達到PB級別,在互聯網企業中應用很是普遍。算法
這裏整理5個Spark的應用實例,但願對Spark學習者可以有所幫助~編程
日誌在計算機系統中是一個很是普遍的概念,任何程序都有可能輸出日誌:操做系統內核、各類應用服務器等等。日誌包含不少有用的信息,例如訪問者的 IP、訪問的時間、訪問的目標網頁、來源的地址以及訪問者所使用的客戶端的 UserAgent 信息等,分析日誌能幫助企業營銷作出決策。服務器
這個項目介紹如何用 Spark 分析日誌,開始介紹了日誌的分類,而後從日誌不斷簡化數據,最終只留下4 個字段,最後以手機號標準,分別按照,上行流量,下行流量,報告時間戳進行倒序排序, 但願學完本節課,能幫助您理解學會運用 Spark 去處理複雜日誌分析。框架
出租車是咱們生活中常常乘坐的一種交通工具,但打車難的問題也限制了咱們更好地利用這種交通方式。在哪些地方出租車更容易打到?在何時更容易打到出租車?該項目基於某市的出租車行駛軌跡數據,帶你學習如何應用Spark SQL和機器學習相關技巧,而且經過數據可視化手段展示分析結果。機器學習
過程圖:工具
這個項目主要講解 Spark 的 RDD 操做,讓您對 Spark 算子的特性快速瞭解。經過演示案例實時黑名單過濾,讓您切身體會到 RDD 的強大功能,而後學以至用。oop
該項目使用Scoket來模擬用戶瀏覽商品產生實時數據,數據包括用戶當前瀏覽的商品以及瀏覽商品的次數和停留時間和是否收藏該商品。使用Spark Streaming構建實時數據處理系統,來計算當前電商平臺最受人們關注的商品是哪些。適合有必定的Java編程基礎以及必定得Spark知識,瞭解Streaming的工做機制的同窗學習性能
效果圖:學習
該項目經過一個航班數據分析實例來學習 Spark 綜合技巧和數據可視化技術。在航班數據分析實驗中,能夠學習到如何使用 OpenRefine 進行簡單的數據清洗,以及如何經過 Spark 提供的 DataFrame、 SQL 和機器學習框架等工具,對航班起降的記錄數據進行分析,嘗試找出形成航班延誤的緣由,以及對航班延誤狀況進行預測。在數據可視化實驗中,能夠學習到 D3.js 中的數據讀取、插值、元素選取、屬性設置等 API 的用法。
效果圖:
以上5個Spark實例教程但願對你有所幫助,更多Spark教程,點擊這裏便可查看~