【Spark亞太研究院系列叢書】Spark實戰高手之路-第3章Spark架構設計與編程模型第2節①

1、到底什麼是Spark?網絡

Spark是一個通用的大數據計算平臺,基於「One Stack to rule them all」的理念成功成爲了一體化多元化的大數據處理平臺,輕鬆應對大數據處理中的實時流計算、SQL交互式查詢、機器學習和圖計算等:機器學習

Spark源於BDAS:oop

基於該技術堆棧,Spark目前已經成爲大數據通用計算平臺:學習

二, Spark的速度爲什麼如此之快?大數據

首先咱們看一下Hadoop經典的處理過程:優化

MapReduce在每次執行的時候都要從磁盤讀數據,計算完畢後都要把數據存放到磁盤上:spa

而Spark是基於內存的:圖片

另一方面,DAG也是Spark快的極爲重要的緣由,下面是一張DAG圖的示例:ip

你們也能夠看一下網絡上一張描述DAG更多細節的圖片:內存

基於DAG,Spark具有了很是精緻的做業調度系統:

DAG中的依賴有寬依賴和窄依賴之分:

在DAG圖中能夠根據依賴對pipeline等優化操做:

基於RDD和DAG,並行計算整個Job:

Spark之因此快,還有一個緣由就是其容錯機制,這個咱們會在本講的後面和你們分享。

相關文章
相關標籤/搜索