本書中所使用到的測試數據、代碼和安裝包放在百度盤提供 下載 ,連接: https://pan.baidu.com/s/1_VvD9EjSDJGMg-hVbB3gQQ 提取碼: bqcn 算法
另外在百度盤提供本書附錄 下載 ,連接: https://pan.baidu.com/s/1Z2kHBIZQB8IqzyxSvUN25Q 提取碼: ahm4 數據庫
爲何要寫這本書編程
在過去的十幾年裏,因爲計算機廣泛應用和互聯網的普及數據呈現了爆發式增加,在這個背景下Doug Cutting受到谷歌兩篇論文(GFS和MapReduce)的啓發下開發Nutch項目, 2006年Hadoop脫離了Nutch,成爲Apache的頂級項目,帶動了大數據發展新十年。在這段時間中,大數據開源產品如雨後春筍層出不窮,特別是2009年由加州大學伯克利分校AMP實驗室開發的Spark,它之內存迭代計算的高效和各組件所造成一棧式解決平臺成爲這些產品的翹楚。架構
Spark在2013年6月成爲Apache孵化項目,8個月後成爲其頂級項目,在2014年5月份發佈了1.0版本,在2016年7月份正式發佈了2.0版本,在這個過程當中Spark社區不斷壯大,成爲了最爲活躍的大數據社區之一。做爲大數據處理的「利器」,Spark在發展過程當中不斷地演進,在各個版本存在較大的差別,市面上關於介紹的Spark已經很多,可是這些書基於Spark版本稍顯陳舊,另外在介紹Spark的時候未能把原理、代碼和實例相結合,基於這個狀況筆者便有了寫一本在剖析Spark原理的同時結合實際實例,從而讓讀者可以更加深刻理解和掌握Spark。運維
在本書中先對Spark的生態圈進行了介紹,講述了Spark的發展歷程,同時也介紹Spark實戰環境的搭建,接下來從Spark的編程模型、做業執行、存儲原理和運行架構等方面講解了Spark內部核心原理,最後對Spark的各組件進行詳細介紹,這些組件包括了Spark SQL的即席查詢、Spark Streaming的實時流處理應用、MLbase/MLlib的機器學習、GraphX的圖處理、SparkR的數學計算和Alluxio的分佈式內存文件系統等。機器學習
讀者對象分佈式
(1) 大數據愛好者oop
隨着大數據時代的來臨,不管傳統行業、IT行業以及互聯網等行業都將涉及到大數據技術,本書可以幫助這些行業的大數據愛好者瞭解Spark生態圈和發展演進趨勢。經過本書能夠了解到Spark特色和使用的場景,若是但願繼續深刻學習Spark知識,該書也是很好的入門選擇。學習
(2) Spark開發人員測試
若是要進行Spark應用的開發,僅僅掌握Spark基本使用方法是不夠的,還需深刻了解Spark的設計原理、架構和運行機制。在本書中將深刻淺出地講解Spark的編程模型、做業運行機制、存儲原理和運行架構等內容,經過這些內容的學習,能夠編寫出更加高效的應用程序。
(3) Spark運維人員
做爲一名Spark運維人員,適當瞭解Spark的設計原理、架構和運行機制對於運維工做十分有幫助。經過該書的學習,不只可以更快地定位並排除故障,並且還可以對Spark運行進行調優,讓Spark運行更加穩定和快速。
(4) 數據科學家和算法研究
隨着大數據技術的發展,實時流計算、機器學習、圖計算等領域成爲較熱的研究方向,因爲Spark有着較爲成熟的生態圈,可以一棧式解決相似場景的問題。這些研究人員能夠經過本書加深對Spark的原理和應用場景的理解,可以更好地利用Spark各個組件進行數據計算和算法實現。
內容速覽
本書分爲三個部分,共計12章。
第一部分爲基礎篇(第1~2章),介紹了Spark誕生的背景、演進歷程,介紹了Spark生態圈的組成,並詳細地介紹如何搭建Spark實戰環境,經過該環境不只能夠閱讀Spark源代碼,並且能夠開發Spark應用程序。
第二部分爲核心篇(第3~6章),講解了Spark的編程模型、核心原理、存儲原理和運行架構,在覈心原理中對Spark通訊機制、做業執行原理、調度算法、容錯和監控管理等進行了深刻的分析,在分析原理和代碼的同時結合實例進行演示。
第三部分爲組件篇(第7~12章),介紹了Spark的各個組件,包括了Spark SQL的即席查詢、Spark Streaming的實時流處理應用、MLbase/MLlib的機器學習、GraphX的圖處理、SparkR的數學計算和Alluxio的分佈式內存文件系統等。
另外本書後面還包括5個附錄:附錄A爲編譯安裝Hadoop,附錄B爲安裝MySql數據庫,附錄C爲編譯安裝Hive,附錄D爲安裝ZooKeeper,附錄E爲安裝Kafka。因爲該書篇幅的限制,這些內容在做者的博客能夠下載。
勘誤和支持
因爲筆者的水平有限,加之編寫時間跨度較長,同時Spark演進較快,在編寫此書的過程當中不免會出現錯誤或者不許確的地方,懇請讀者批評指正。若是本書存有錯誤,或者您有Spark的內容須要探討,能夠發送郵件到jan98341@qq.com進行聯繫,期待可以獲得你們的反饋。
致謝
感謝中油瑞飛公司,讓我接觸到大數據的世界,並工做的過程當中深刻了解Spark,感謝吳建平、於鵬、李新宅、祝軍、張文逵、馬君博士、盧文君等領導同事,在本書編寫中提供無私的幫助和寶貴的建議。
感謝京東商城的付彩寶、沈曉凱對我工做和該書的支持,感謝付彩寶在繁忙的工做爲本書寫推薦,感謝京東數據挖掘架構師何雲龍爲我做序,感謝大數據平臺部的周龍波對該書提出了寶貴意見。
感謝EMC常雷博士爲本書審稿並寫推薦。
感謝Alluxio CEO的李浩源博士對本書的支持,感謝範斌在很是忙的工做中,抽出時間給Alluxio章節進行了審稿並提供了很好的建議。
感謝電子出版社的安娜編輯,正式因爲她耐心和支持才讓本書的得以出版。
感謝個人家人對本身的支持和理解,特別是在寫書過程當中老婆又添猴寶寶,讓本身擁有一對健康可愛的兒女,這些給本身莫大的動力,讓本身的努力更加有意義。
謹以此書先給我親愛的家人,大家是我努力的源泉。