【Spark亞太研究院系列叢書】Spark實戰高手之路-第3章Spark架構設計與編程模型第1節②

時間 2019-11-05

標籤 Spark亞太研究院系列叢書 spark 實戰高手之路架構設計編程模型欄目 Spark 简体版

原文原文鏈接

3、你爲何須要Spark；算法

你須要Spark的十大理由：編程

1，Spark是能夠革命Hadoop的目前惟一替代者，可以作Hadoop作的一切事情，同時速度比Hadoop快了100倍以上：性能優化

Logistic regression in Hadoop and Spark架構

能夠看出在Spark特別擅長的領域其速度比Hadoop快120倍以上！app

2，原先支持Hadoop的四大商業機構紛紛宣佈支持Spark，包含知名Hadoop解決方案供應商Cloudera和知名的Hadoop供應商MapR；框架

3，Spark是繼Hadoop以後，成爲替代Hadoop的下一代雲計算大數據核心技術，目前SPARK已經構建了本身的整個大數據處理生態系統，如流處理、圖技術、機器學習、NoSQL查詢等方面都有本身的技術，而且是Apache頂級Project，能夠預計的是2014年下半年到2015年在社區和商業應用上會有爆發式的增加。運維

4，國外一些大型互聯網公司已經部署了Spark。甚至連Hadoop的早期主要貢獻者Yahoo如今也在多個項目中部署使用Spark；國內的淘寶、優酷土豆、網易、Baidu、騰訊等已經使用Spark技術用於本身的商業生產系統中，國內外的應用開始愈來愈普遍。Spark正在逐漸走向成熟，並在這個領域扮演更加劇要的角色。機器學習

5，不得不提的是Spark的「One stack to rule them all」的特性，Spark的特色之一就是用一個技術堆棧解決雲計算大數據中流處理、圖技術、機器學習、交互式查詢、偏差查詢等全部的問題，此時咱們只須要一個技術團隊經過Spark就能夠搞定一切問題，而若是基於Hadoop就須要分別構建實時流處理團隊、數據統計分析團隊、數據挖掘團隊等，並且這些團隊之間不管是代碼仍是經驗都不可相互借鑑，會造成巨大的成本，而使用Spark就不存在這個問題；分佈式

6，Mahout前一階段表示從如今起他們將再也不接受任何形式的以MapReduce形式實現的算法，另一方面，Mahout宣佈新的算法基於Spark；函數式編程

7，若是你已經使用了Hadoop，就更加須要Spark。Mahout前一階段表示從如今起他們將再也不接受任何形式的以MapReduce形式實現的算法，另一方面，Mahout宣佈新的算法基於Spark，同時，這幾年來，Hadoop的改進基本停留在代碼層次，也就是修修補補的事情，這就致使了Hadoop如今具備深度的「技術債務」，負載累累；

8，伴隨Spark技術的普及推廣，對專業人才的需求日益增長。Spark專業人才在將來也是煊赫一時，垂手可得能夠拿到百萬的薪酬；

9，百億美圓市場，教授爲之辭職，學生爲止輟學，大勢所趨！

10，Life is short.

4、如何成爲雲計算大數據Spark高手(含思惟導圖和每一個階段的課程推薦)；

Spark採用一個統一的技術堆棧解決了雲計算大數據的如流處理、圖技術、機器學習、NoSQL查詢等方面的全部核心問題，具備完善的生態系統，這直接奠基了其一統雲計算大數據領域的霸主地位；

要想成爲Spark高手，須要經歷六大階段：

第一階段：熟練的掌握Scala語言

1， Spark框架是採用Scala語言編寫的，精緻而優雅。要想成爲Spark高手，你就必須閱讀Spark的源代碼，就必須掌握Scala,；

2，雖說如今的Spark能夠採用多語言Java、Python等進行應用程序開發，可是最快速的和支持最好的開發API依然並將永遠是Scala方式的API，因此你必須掌握Scala來編寫複雜的和高性能的Spark分佈式程序；

3，尤爲要熟練掌握Scala的trait、apply、函數式編程、泛型、逆變與協變等；

推薦課程：」精通Spark的開發語言：Scala最佳實踐」

第二階段：精通Spark平臺自己提供給開發者API