在飛速發展的雲計算大數據時代,Spark是繼Hadoop以後,成爲替代Hadoop的下一代雲計算大數據核心技術,目前Spark已經構建了本身的整個大數據處理生態系統,如流處理、圖技術、機器學習、NoSQL查詢等方面都有本身的技術,而且是Apache頂級Project,能夠預計的是2014年下半年到2015年Spark在社區和商業應用上會有爆發式的增加。算法
Spark在業界的使用案例網絡
Spark技術在國內外的應用開始愈來愈普遍,它正在逐漸走向成熟,並在這個領域扮演更加劇要的角色。國外一些大型互聯網公司已經部署了Spark。例如:一直支持Hadoop的四大商業機構(Cloudera、MapR、Hortonworks、EMC)已紛紛宣佈支持Spark;Mahout前一階段也表示,將再也不接受任何形式以MapReduce實現的算法,同時還宣佈了基於Spark新的算法;而Cloudera的機器學習框架Oryx的執行引擎也將由Hadoop的MapReduce替換成Spark;另外,Google也已經開始將負載從MapReduce轉移到Pregel和Dremel上;FaceBook也宣佈將負載轉移到Presto上……而目前,咱們國內的淘寶、優酷土豆、網易、Baidu、騰訊等企業也已經使用Spark技術在本身的商業生產系統中。框架
Spark是最新一代的大數據處理框架,在數據統計分析、數據挖掘、流處理、圖技術、機器學習、偏差查詢等方面都有本身的技術,從咱們的技術研究和長期業界觀察來看,Spark會成爲大數據時代集大成的計算框架。隨着2014年5月30日Spark 1.0.0的發佈,Spark已經相對穩定,能夠放心使用。機器學習
Spark如何部署到生產環境oop
對於Spark該如何部署到生產環境中,Spark是最新一代大數據計算框架,使用時須要單獨部署集羣,Spark集羣部署方式主要有三種:Standalone、Yarn、Mesos。通常而言,在部署的時候都會基於HDFS文件存儲系統,因此,若是已經有Hadoop平臺,部署Spark就很是容易,只需在平臺上增長Spark功能便可。目前,國內企業淘寶使用的Spark就是基於Hadoop的yarn。固然也能夠採用standalone和zookeeper的方式進行從無到有的構建Spark集羣,這也是一種常見和理想的選擇,而且這種方式也是官方推薦的。學習
企業如何作雲計算大數據部署的技術選型大數據
如今,談到雲計算大數據話題的時候不少人仍是多會提到Hadoop,對Spark瞭解的人還不是不少,若是企業有計劃要部署雲計算大數據的話,如何作技術選型是很重要的。對此,Spark亞太研究院院長和首席專家王家林給出了以下建議:雲計算
若是企業之前沒有云計算大數據集羣,選擇使用Spark要比Hadoop更爲明智,緣由是:首先,Hadoop自己的計算模型決定了它的全部工做都要轉化成Map、Shuffle和Reduce等核心階段,因爲每次計算都要從磁盤讀或者寫數據,並且整個計算模型須要網絡傳輸,這就致使愈來愈難以忍受的延遲性。其次,Hadoop還不能支持交互式應用。rest
而Spark能夠輕鬆應對數據統計分析、數據挖掘、流處理、圖技術、機器學習、偏差查詢等,且Spark的「One stack rule them all」的特性也致使部署的簡易性,省去多套系統部署的麻煩。內存
若是技術選型爲Spark,那麼,解決數據統計分析、實時流計算、數據挖掘基本只須要一個團隊便可,而若是採用Hadoop則須要不一樣團隊作處理每一項專門的技術,極大的增長人力成本。
另外,對於已經有Hadoop集羣的公司而言,建議嘗試使用Spark技術,能夠從Spark的Shark或者Spark SQL開始,推薦使用Spark的實時流處理和機器學習技術。
Spark趨勢,中型企業如何抉擇
Spark因其部署的簡易性和「One stack to rule them all」的特色,是大數據時代中型企業處理大數據的福音。例如,Yahoo!、淘寶、優酷土豆、網易、騰訊等國內大型知名企業已經在商業生產環境下開始使用Spark技術;Intel、IBM、Linkin、Twwitter等國外大型知名企業也都在大力支持Spark。隨着這些國內外大企業的使用,Spark技術的發展必然勢不可擋,行業普及很快就會到來,所以對於中型企業的使用和普及,只是時間問題。中型公司若是要基於Spark進行部署,只需配備約5-20人的團隊,便可在Spark上作數據分析統計、機器學習、實施流處理計算等工做。
對於電信、金融等行業,使用Spark一樣勢不可擋。在數據統計分析方面,Spark比Hadoop快幾十倍,若是是使用內存表,Spark更是比Hadoop快100倍以上。同時Spark的實時流處理、機器學習、圖計算也很是高效,能夠充分知足電信、金融行業數據挖掘的須要。
做爲惟一能夠革命Hadoop並正在成爲大數據計算框架霸主的Spark技術,因爲其「One stack to rule them all」的特性(使用一個統一的技術堆棧解決了大數據處理生態系統中的流處理、圖技術、機器學習、NoSQL查詢等方面的技術問題),在2014年10月左右會在中國的需求有爆發之勢,這種需求包含企業使用Spark的需求和Spark人才的迫切需求,同時,這種需求將不限已經使用Spark的Yahoo!、淘寶、騰訊、網易等國內大型企業,還會包含不少中小企業。