Spark—4(Spark核心組件)

一、Spark Streaming

Spark Sreaming基於Spark Core實現了可擴展、高吞吐和容錯的實時數據流處理。如今支持的數據源和處理後的結果存儲以下圖所示。算法

Spark Streaming將流式計算分解成一系列短小的批處理做業。即將Spark Streaming的輸入數據按照批處理尺寸(如1秒)分紅一段段的數據(Stream),每一段數據都轉換成Spark中的RDD,而後將Spark Streaming中對DStream的轉換操做變爲Spark中對RDD的轉換操做,將RDD通過操做變成中間結果保存在內存中,整個流式計算能夠根據業務需求對中間結果進行疊加,或者存儲到外部設備。以下圖所示。機器學習

二、MLlib

MLlib是Spark對經常使用的機器學習算法的實現庫。學習

三、Spark SQL

Spark SQL最多見的用途之一就是做爲一個從Spark平臺獲取數據的渠道。支持從現有Apache Hive表以及流行的Parquet列式存儲格式中讀取數據的支持以及其餘格式的支持如JSON。Spark SQL支持的數據源以下圖所示。spa

四、GraphX

Spark GraphX是Spark提供的關於圖和圖並行計算的API,它集ETL、試探性分析和迭代式的圖計算於一體。blog

五、Spark的總體代碼結構

參考資料:內存

1. Spark技術內幕,張安站擴展

相關文章
相關標籤/搜索