1、到底什麼是Spark?網絡
Spark是一個通用的大數據計算平臺,基於「One Stack to rule them all」的理念成功成爲了一體化多元化的大數據處理平臺,輕鬆應對大數據處理中的實時流計算、SQL交互式查詢、機器學習和圖計算等:機器學習
Spark源於BDAS:oop
基於該技術堆棧,Spark目前已經成爲大數據通用計算平臺:學習
二, Spark的速度爲什麼如此之快?大數據
首先咱們看一下Hadoop經典的處理過程:優化
MapReduce在每次執行的時候都要從磁盤讀數據,計算完畢後都要把數據存放到磁盤上:spa
而Spark是基於內存的:圖片
另一方面,DAG也是Spark快的極爲重要的緣由,下面是一張DAG圖的示例:ip
你們也能夠看一下網絡上一張描述DAG更多細節的圖片:內存
基於DAG,Spark具有了很是精緻的做業調度系統:
DAG中的依賴有寬依賴和窄依賴之分:
在DAG圖中能夠根據依賴對pipeline等優化操做:
基於RDD和DAG,並行計算整個Job:
Spark之因此快,還有一個緣由就是其容錯機制,這個咱們會在本講的後面和你們分享。