Spark—4（Spark核心組件）

時間 2019-11-05

標籤 spark 核心組件欄目 Spark 简体版

原文原文鏈接

一、Spark Streaming

Spark Sreaming基於Spark Core實現了可擴展、高吞吐和容錯的實時數據流處理。如今支持的數據源和處理後的結果存儲以下圖所示。算法

Spark Streaming將流式計算分解成一系列短小的批處理做業。即將Spark Streaming的輸入數據按照批處理尺寸（如1秒）分紅一段段的數據（Stream），每一段數據都轉換成Spark中的RDD，而後將Spark Streaming中對DStream的轉換操做變爲Spark中對RDD的轉換操做，將RDD通過操做變成中間結果保存在內存中，整個流式計算能夠根據業務需求對中間結果進行疊加，或者存儲到外部設備。以下圖所示。機器學習

二、MLlib

MLlib是Spark對經常使用的機器學習算法的實現庫。學習

三、Spark SQL

Spark SQL最多見的用途之一就是做爲一個從Spark平臺獲取數據的渠道。支持從現有Apache Hive表以及流行的Parquet列式存儲格式中讀取數據的支持以及其餘格式的支持如JSON。Spark SQL支持的數據源以下圖所示。spa

四、GraphX

Spark GraphX是Spark提供的關於圖和圖並行計算的API，它集ETL、試探性分析和迭代式的圖計算於一體。blog

五、Spark的總體代碼結構

參考資料：內存

1. Spark技術內幕，張安站擴展

相關文章

相關標籤/搜索

flume+spark+hive+spark

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<