原文地址:框架
http://blog.52sox.com/Spark-d...
在大數據的時代,數據的各類術語層出不窮,好比數據倉庫、數據湖,還有比較熱門的Hadoop、Spark,讓人眼花繚亂。在這裏,咱們主要介紹的是Spark,從宏觀的角度來介紹Spark究竟是什麼。
咱們將解決以下幾個簡單的問題:機器學習
下面咱們分別進行敘述。分佈式
首先,咱們開始第1個簡單的問題,Spark是什麼?
Spark是什麼,Spark是1個用來實現快速而通用的集羣計算的平臺。
在速度方面,Spark擴展了普遍使用的MapReduce計算模型,高效地支持更多計算模型,包括交互式查詢和流處理,並可以在內存中進行計算。
總的來講,Spark適用於各類各樣原先須要在多種不一樣的分佈式平臺下的場景,包括批處理、交互式查詢、流處理。並經過1個統一的框架支持這些不一樣的計算,大大減輕了原先須要對各類平臺分別管理的負擔。
另外,Spark還提供了豐富的接口(支持Python、Java、Scala)和程序庫外,還能與其餘大數據工具密切配合使用,例如運行在Hadoop集羣上。工具
Spark項目包含多個緊密集成的組件,其核心是1個能夠對不少計算任務、多個工做機器或計算集羣上的應用進行調度、分發以及監控的計算引擎。
其各個組件主要包括:oop
Spark主要面向兩大目標人羣:性能
能夠用於如下兩方面:學習
參考書籍:大數據
《Learning Spark:Lightning-fast Data Analysis》P1-6