1、MapReduce已死,Spark稱霸 算法
因爲Hadoop的MapReduce高延遲的死穴,致使Hadoop無力處理不少對時間有要求的場景,人們對其批評愈來愈多,Hadoop無力改變如今而致使正在死亡。正如任何領域同樣,死亡是一個過程,Hadoop正在示例這樣的一個過程,Hadoop的死亡過程在2012年已經開始網絡
1,原先支持Hadoop的四大商業機構紛紛宣佈支持Spark;架構
2,Mahout前一階段表示從如今起他們將再也不接受任何形式的以MapReduce形式實現的算法,另一方面,Mahout宣佈新的算法基於Spark;框架
3,Cloudera的機器學習框架Oryx的執行引擎也將由Hadoop的MapReduce替換成Spark;機器學習
4,Google已經開始將負載從MapReduce轉移到Pregel和Dremel上;oop
5,FaceBook則將負載轉移到Presto上;學習
如今不少原來使用深度使用Hadoop的公司都在紛紛轉向Spark,國內的淘寶是典型的案例。在此,咱們以使用世界上使用Hadoop最典型的公司Yahoo!爲例,你們能夠看一下其數據處理的架構圖:大數據
而使用Spark後的架構以下:雲計算
你們能夠看出,現階段的Yahoo!是使用Hadoop和Spark並存的架構,而隨着時間的推動和Spark自己流處理、圖技術、機器學習、NoSQL查詢的出色特性,最終Yahoo!可能會完成Spark全面取代Hadoop,而這也表明了全部作雲計算大數據公司的趨勢。spa
或許有朋友會問,Hadoop爲什麼不改進本身?
其實,Hadoop社區一直在改進Hadoop自己,但事實是無力迴天:
1,Hadoop的改進基本停留在代碼層次,也就是修修補補的事情,這就致使了Hadoop如今具備深度的「技術債務」,負載累累;
2,Hadoop自己的計算模型決定了Hadoop上的全部工做都要轉化成Map、Shuffle和Reduce等核心階段,因爲每次計算都要從磁盤讀或者寫數據,同時真個計算模型須要網絡傳輸,這就致使了愈來愈不能忍受的延遲性,同時在前一個任務運行完以前,任何一個任務都不能夠運行,這直接致使了其無力支持交互式應用;
那麼,爲何不所有從新寫一個更好的Hadoop呢?答案是Spark的出現使得沒有必要這樣作了。
Spark是繼Hadoop以後,成爲替代Hadoop的下一代雲計算大數據核心技術,目前SPARK已經構建了本身的整個大數據處理生態系統,如流處理、圖技術、機器學習、NoSQL查詢等方面都有本身的技術,而且是Apache頂級Project,能夠預計的是2014年下半年到2015年在社區和商業應用上會有爆發式的增加。
國外一些大型互聯網公司已經部署了Spark。甚至連Hadoop的早期主要貢獻者Yahoo如今也在多個項目中部署使用Spark;國內的淘寶、優酷土豆、網易、Baidu、騰訊等已經使用Spark技術用於本身的商業生產系統中,國內外的應用開始愈來愈普遍。Spark正在逐漸走向成熟,並在這個領域扮演更加劇要的角色。
2、企業爲何須要Spark;
1,如今不少原來使用深度使用Hadoop的公司都在紛紛轉向Spark,國內的淘寶是典型的案例。在此,咱們以使用世界上使用Hadoop最典型的公司Yahoo!爲例,你們能夠看一下其數據處理的架構圖:
而使用Spark後的架構以下:
你們能夠看出,現階段的Yahoo!是使用Hadoop和Spark並存的架構,而隨着時間的推動和Spark自己流處理、圖技術、機器學習、NoSQL查詢的出色特性,最終Yahoo!可能會完成Spark全面取代Hadoop,而這也表明了全部作雲計算大數據公司的趨勢。
2,Spark是能夠革命Hadoop的目前惟一替代者,可以作Hadoop作的一切事情,同時速度比Hadoop快了100倍以上:
Logistic regression in Hadoop and Spark
能夠看出在Spark特別擅長的領域其速度比Hadoop快120倍以上!
,3,原先支持Hadoop的四大商業機構紛紛宣佈支持Spark,包含知名Hadoop解決方案供應商Cloudera和知名的Hadoop供應商MapR;
4,Spark是繼Hadoop以後,成爲替代Hadoop的下一代雲計算大數據核心技術,目前SPARK已經構建了本身的整個大數據處理生態系統,如流處理、圖技術、機器學習、NoSQL查詢等方面都有本身的技術,而且是Apache頂級Project,能夠預計的是2014年下半年到2015年在社區和商業應用上會有爆發式的增加。
5,國外一些大型互聯網公司已經部署了Spark。甚至連Hadoop的早期主要貢獻者Yahoo如今也在多個項目中部署使用Spark;國內的淘寶、優酷土豆、網易、Baidu、騰訊等已經使用Spark技術用於本身的商業生產系統中,國內外的應用開始愈來愈普遍。Spark正在逐漸走向成熟,並在這個領域扮演更加劇要的角色。
6,不得不提的是Spark的「One stack to rule them all」的特性,Spark的特色之一就是用一個技術堆棧解決雲計算大數據中流處理、圖技術、機器學習、交互式查詢、偏差查詢等全部的問題
7,Mahout前一階段表示從如今起他們將再也不接受任何形式的以MapReduce形式實現的算法,另一方面,Mahout宣佈新的算法基於Spark;
8,若是你已經使用了Hadoop,就更加須要Spark。Mahout前一階段表示從如今起他們將再也不接受任何形式的以MapReduce形式實現的算法,另一方面,Mahout宣佈新的算法基於Spark,同時,這幾年來,Hadoop的改進基本停留在代碼層次,也就是修修補補的事情,這就致使了Hadoop如今具備深度的「技術債務」,負載累累;
8,,此時咱們只須要一個技術團隊經過Spark就能夠搞定一切問題,而若是基於Hadoop就須要分別構建實時流處理團隊、數據統計分析團隊、數據挖掘團隊等,並且這些團隊之間不管是代碼仍是經驗都不可相互借鑑,會造成巨大的成本,而使用Spark就不存在這個問題;
9,百億美圓市場,教授爲之辭職,學生爲止輟學,大勢所趨!
10,Life is short!