Spark Sreaming基於Spark Core實現了可擴展、高吞吐和容錯的實時數據流處理。如今支持的數據源和處理後的結果存儲以下圖所示。算法
Spark Streaming將流式計算分解成一系列短小的批處理做業。即將Spark Streaming的輸入數據按照批處理尺寸(如1秒)分紅一段段的數據(Stream),每一段數據都轉換成Spark中的RDD,而後將Spark Streaming中對DStream的轉換操做變爲Spark中對RDD的轉換操做,將RDD通過操做變成中間結果保存在內存中,整個流式計算能夠根據業務需求對中間結果進行疊加,或者存儲到外部設備。以下圖所示。機器學習
MLlib是Spark對經常使用的機器學習算法的實現庫。學習
Spark SQL最多見的用途之一就是做爲一個從Spark平臺獲取數據的渠道。支持從現有Apache Hive表以及流行的Parquet列式存儲格式中讀取數據的支持以及其餘格式的支持如JSON。Spark SQL支持的數據源以下圖所示。spa
Spark GraphX是Spark提供的關於圖和圖並行計算的API,它集ETL、試探性分析和迭代式的圖計算於一體。blog
參考資料:內存
1. Spark技術內幕,張安站擴展