革命Hadoop,Spark攪熱雲計算大數據市場

 

據相關數據顯示,2013年上半年中國手機網民規模已經突破5億大關,預計14年第一季度,國內手機網民規模將超PC端,手機用戶超過10億,3G用戶持續增加,以及4G的強勢勁頭,都催生移動大數據的爆發。大量新數據無時無刻不在涌現,移動互聯網正影響着人類生活的方方面面。算法

這將是一個史無前例的時代。全部的公司和機構都已經或者正在成爲移動互聯網組織。全部的公司和機構也終將是雲計算大數據組織。移動互聯網及雲計算大數據的浪潮正在並將最終完全的變革全部的公司和機構的架構模式、生產模式、服務模式以及管理模式。編程

 

Spark—新一代全能大數據計算平臺崛起性能優化

 

隨着大數據相關技術和產業的逐漸成熟,單個組織內每每須要同時進行多種類型的大數據分析做業:傳統Hadoop MapReduce最爲擅長的是離線海量數據的統計分析,因爲Hadoop自己的特性,致使使用Hadoop處理大數據的結果的獲取每每是要延遲在幾分鐘甚至是幾個小時,這在不少場景下都是不可接受的。更爲重要的是在Spark出現前,要在一個組織內同時完成各類機器學習算法爲表明的迭代型計算、流式計算、社交網絡中經常使用的圖計算、SQL關係查詢、交互式即席查詢等數種大數據分析任務,就不得不與多套獨立的系統打交道,一方面引入了不容小覷的運維複雜性,另外一方面還免不了要在多個系統間頻繁進行代價高昂的數據轉儲。網絡

 

Spark是基於內存,是雲計算領域的繼Hadoop以後的下一代的最熱門的通用的並行計算框架開源項目,尤爲出色的支持Interactive Query、流計算、圖計算等。架構

Spark在機器學習方面有着無與倫比的優點,特別適合須要屢次迭代計算的算法。同時Spark的擁有很是出色的容錯和調度機制,確保系統的穩定運行,Spark目前的發展理念是經過一個計算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多種功能於一個項目中,具備很是好的易用性。框架

 

Spark無可比擬的優點,佔據雲計算大數據領域霸主地位運維

 

Spark是發源於美國加州大學伯克利分校AMPLab的集羣計算平臺,它立足於內存計算,性能超過Hadoop百倍,從多迭代批量處理出發,兼收幷蓄數據倉庫、流處理和圖計算等多種計算範式,是罕見的全能選手。Spark當下已成爲Apache基金會的頂級開源項目,擁有着龐大的社區支持(活躍開發者人數已超過Hadoop MapReduce),技術也逐漸走向成熟。機器學習

做爲下一代雲計算及大數據的核心技術,Spark是能夠革命Hadoop的目前惟一替代者,可以作Hadoop作的一切事情,同時速度比Hadoop快了100倍以上。甚至在Hadoop最擅長的離線數據統計分析領域,Spark比Hadoop也至少快了一個幾何級數;Spark另一個無可取代的優點是:「One Stack to rule them all」,Spark採用一個統一的技術堆棧解決了雲計算大數據包括如流處理、圖技術、機器學習、NoSQL查詢等方面的全部核心問題,具備完善的生態系統;這直接奠基了其一統雲計算大數據領域的霸主地位;分佈式

 

Spark應用現狀及將來發展oop

目前SPARK已經構建了本身的整個大數據處理生態系統,如流處理、圖技術、機器學習、NoSQL查詢等方面都有本身的技術,而且是Apache頂級Project,能夠預計的是2014年下半年到2015年在社區和商業應用上會有爆發式的增加。

國外一些大型互聯網公司已經部署了Spark。甚至連Hadoop的早期主要貢獻者Yahoo如今也在多個項目中部署使用Spark;國內的淘寶、優酷土豆、網易、Baidu、騰訊等已經使用Spark技術用於本身的商業生產系統中,國內外的應用開始愈來愈普遍。

 

前段時間,mahout宣佈了一個重大的消息,mahout社區表示從如今起,他們將再也不接受任何以MapReduce形式實現的算法,可是他們仍然將維護那些經常使用算法的MapReduce實現。另外一方面,mahout宣佈新的算法將基於Spark實現,他們相信Spark更豐富的編程模型及更優秀的性能將對mahout有着相當重要的做用。另外一方面,Cloudera的機器學習框架oryx的執行引擎也會替換成Spark,以前oryx也是使用mapreduce。種種跡象代表,Spark已經開始各類屠殺了,很是有但願成爲新一代分佈式機器學習事實上的標準。讓咱們拭目以待。Spark正在逐漸走向成熟,並在這個領域扮演更加劇要的角色。

 

Spark發展迅速,人才培養將成爲關注熱點

Spark技術的快速發展及應用普及,也帶來了另一個倍受企業關注的問題,即Spark人才的培養。因爲目前Spark技術在企業的應用,仍然屬於一個起步的階段,在專業人才上極度匱乏。目前國內專一在Spark人才培養的機構和課程很是罕見。

Spark亞太研究院院長及首席專家王家林介紹,Spark亞太研究院致力於Spark技術的研究及推廣,在幫助企業規劃、部署、開發、培訓和使用Spark爲核心,同時提供Spark源碼研究和應用技術訓練。

在推進國內Spark人才培養上,Spark研究院在完成了對Spark源碼的完全研究的同時不斷在實際環境中使用Spark的各類特性的基礎之上,推出了國內首個Spark訓練體系:

18小時內掌握Spark》、《Spark企業級開發最佳實踐》《精通SparkSpark內核剖析、源碼解讀、性能優化和商業案例實戰》,幫助企業,從入門到精通到商業實戰,完成Spark人才的快速培養

相關文章
相關標籤/搜索