Spark技術棧有哪些組件,每一個組件都有什麼功能,適合什麼應用場景?

1)Spark core:是其它組件的基礎,spark的內核,主要包含:有向循環圖、RDD、Lingage、Cache、broadcast等,並封裝了底層通信框架,是Spark的基礎。sql

 

2)SparkStreaming是一個對實時數據流進行高通量、容錯處理的流式處理系統,能夠對多種數據源(如Kafka、Flume、Twitter、Zero和TCP 套接字)進行相似Map、Reduce和Join等複雜操做,將流式計算分解成一系列短小的批處理做業。框架

 

3)Spark sql:Shark是SparkSQL的前身,Spark SQL的一個重要特色是其可以統一處理關係表和RDD,使得開發人員能夠輕鬆地使用SQL命令進行外部查詢,同時進行更復雜的數據分析。機器學習

 

4)BlinkDB :是一個用於在海量數據上運行交互式 SQL 查詢的大規模並行查詢引擎,它容許用戶經過權衡數據精度來提高查詢響應時間,其數據的精度被控制在容許的偏差範圍內。學習

 

5)MLBase是Spark生態圈的一部分專一於機器學習,讓機器學習的門檻更低,讓一些可能並不瞭解機器學習的用戶也能方便地使用MLbase。MLBase分爲四部分:MLlib、MLI、ML Optimizer和MLRuntime。spa

 

6)GraphX是Spark中用於圖和圖並行計算開發

相關文章
相關標籤/搜索