本書出自OReilly的《Spark: The Definitive Guide Big Data Processing Made Simple》,由Matei Zaharia, Bill Chambers兩位大佬所寫,是2018年2月的初版(我也不清楚有沒有最新版,搜也沒搜到第二版)git
參考本書主頁介紹,着眼於Spark 2.0的改進,探索Spark結構化API的基本操做和經常使用功能,以及用於構建端到端流應用程序的新型高級API Structured Streaming。學習監控,調優和調試Spark的基礎知識,並探索機器學習技術和場景,以便使用Spark的可擴展機器學習庫MLlib。github
OReilly它家的書都是把代碼和案例放在github上的,這本書也不例外,見此databricks/Spark-The-Definitive-Guid算法
實際上,這並不是我初學Spark了,以前也有所涉獵,但想着可以深刻學習,便計劃寫下文章加深本身理解,以及分享知識。網絡
本書並不是是對原做的翻譯,好像目前國內也沒有出版社翻譯了這本書,僅僅是敘述本身讀書的心得、想法,並結合本身以前所學加以新內容。機器學習
計劃
- 計劃第一、二、3章
- 計劃做廢,和大多書同樣前面內容都是總覽性內容,實際性的東西也很雜,因此先放置待後期補上吧
- 計劃四、五、6章吧,(~5.26)
- 已完成四、5,預計可達成
- 機器學習相關第24~31不打算看
書籍分爲如下七大部分:分佈式
收錄於此:josonle/Spark-The-Definitive-Guide-Learning,優先上傳到本倉庫ide
更多推薦: Coding Now工具
學習記錄的一些筆記,以及所看得一些電子書eBooks、視頻資源和日常收納的一些本身認爲比較好的博客、網站、工具。涉及大數據幾大組件、Python機器學習和數據分析、Linux、操做系統、算法、網絡等post