【Spark亞太研究院系列叢書】Spark實戰高手之路-第3章Spark架構設計與編程模型第2節①

時間 2019-11-05

標籤 Spark亞太研究院系列叢書 spark 實戰高手之路架構設計編程模型欄目 Spark 简体版

原文原文鏈接

1、到底什麼是Spark？網絡

Spark是一個通用的大數據計算平臺，基於「One Stack to rule them all」的理念成功成爲了一體化多元化的大數據處理平臺，輕鬆應對大數據處理中的實時流計算、SQL交互式查詢、機器學習和圖計算等：機器學習

Spark源於BDAS:oop

基於該技術堆棧，Spark目前已經成爲大數據通用計算平臺：學習

二， Spark的速度爲什麼如此之快？大數據

首先咱們看一下Hadoop經典的處理過程：優化

MapReduce在每次執行的時候都要從磁盤讀數據，計算完畢後都要把數據存放到磁盤上：spa

而Spark是基於內存的：圖片

另一方面，DAG也是Spark快的極爲重要的緣由，下面是一張DAG圖的示例：ip

你們也能夠看一下網絡上一張描述DAG更多細節的圖片：內存

基於DAG，Spark具有了很是精緻的做業調度系統：

DAG中的依賴有寬依賴和窄依賴之分：

在DAG圖中能夠根據依賴對pipeline等優化操做：

基於RDD和DAG，並行計算整個Job：

Spark之因此快，還有一個緣由就是其容錯機制，這個咱們會在本講的後面和你們分享。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。