spark

 

Spark是UC Berkeley AMP lab開發的一個集羣計算的框架,相似於Hadoop,但有不少的區別。最大的優化是讓計算任務的中間結果能夠存儲在內存中,不須要每次都寫入HDFS,更適用於須要迭代的MapReduce算法場景中,能夠得到更好的性能提高。例如一次排序測試中,對100TB數據進行排序,Spark比Hadoop快三倍,而且只須要十分之一的機器。Spark集羣目前最大的能夠達到8000節點,處理的數據達到PB級別,在互聯網企業中應用很是普遍.html

Spark SQL 是一個分佈式查詢引擎.前端

Spark Streaming 適用於實時處理流式數據。算法

Spark 的 MLlib 庫相關知識,掌握 MLlib 的幾個基本數據類型,而且能夠動手練習如何經過機器學習中的一些算法來推薦電影。框架

GraphX是Spark用於解決圖和並行圖計算問題的新組件。機器學習

GraphX包含了一些用於簡化圖分析任務的的圖計算算法。你能夠經過圖操做符來直接調用其中的方法。分佈式

SparkR是一個提供輕量級前端的R包,集成了Spark的分佈式計算和存儲等特性。oop

DataFrame讓Spark具有了處理大規模結構化數據的能力,在比原有的RDD轉化方式更加易用、計算性能更好。性能

相關文章
相關標籤/搜索