快速且通用的集羣計算平臺算法
包含基本功能,包括任務調度、內存管理、容錯機制。內部定義了RDDS(彈性分佈式數據集),提供了不少APIs來建立和操做這些RDDs。
應用場景:爲其它組件提供底層的服務。sql
Spark處理結構化數據的庫,像Hive SQL、MySQL同樣。
應用場景:企業中用來作報表統計網絡
實時數據流處理組件,相似Storm。Spark Streaming提供API來操做實時流數據。
應用場景:企業中用來從Kafka接收數據作實時統計機器學習
一個包含通用機器學習功能的包,Machine learning lib。包含分類、聚類、迴歸等,還包括模型評估和數據導入。MLlib提供的上面這些方法,都支持集羣上的橫向擴展。分佈式
處理圖的庫(例如社交網絡圖),並進行圖的並行計算,像Spark Streaming,Spark SQL同樣,它繼承了RDD API。提供了各類圖的操做,和經常使用的圖算法,例如RangeRank算法
應用場景:圖計算oop
集羣管理,Spark自帶一個集羣管理是單獨調度器。常見的集羣管理包括:Hadoop YARN、Apache Mesos學習
Spark底層優化,基於Spark底層的組件,也獲得相應的優化。緊密集成,節省了各個組件使用時的部署,測試時間。向Spark增長新的組件時,其它組件可當即享用新組件的功能。測試
Hadoop應用場景:離線處理、對及時性要求不高
Spark應用場景:時效性要求高、機器學習等領域大數據