前言html
其實啊,不管你是初學者仍是具有了有必定spark編程經驗,都須要對spark源碼足夠重視起來。python
本人,肺腑之己見,想要成爲大數據的大牛和頂尖專家,多結合源碼和操練編程。git
準備工做github
一、scala 2.10.4(本地的安裝)sql
二、Jdk1.7+ 或 jdk1.8+ (本地的安裝)docker
三、IntelliJ IDEAapache
另外,最後仍是建議你們開始先使用 pre-built 的 Spark,對 Spark 的運行、使用方法有所瞭解,編寫了一些 Spark 應用程序後再展開源代碼的閱讀,並嘗試修改源碼,進行手動編譯。 編程
整體流程windows
一、從 Github 導入 Spark 工程微信
打開IntelliJ IDEA 後,在菜單欄中選擇 VCS→Check out from Version Control→Git,以後在 Git Repository URL 中填入 Spark 項目的地址,並指定好本地路徑,以下圖所示。
https://github.com/apache/spark.git
或者,咱們能夠直接先下載好,
好比我這裏,已經下載好了
解壓,
提早,先準備好
對於spark源碼的目錄結構
一、編譯相關 : sbt 、assembly、project
二、spark核心 :core
三、Spark Lib : streaming 、 sql 、graphx 、mllib
四、運行腳本和配置 : bin 、sbin 、conf
五、虛擬化 : ec2 、docker 、dev
六、式例 : examples 、data
七、部署相關: yarn
八、python支持 : python
九、repl : repl
十、 3pp : externals
如今,我開始,進入spark源碼導入工做。
先來關閉,已有的工程。
File -> Close Project
獲得,以下
選擇,Import Project
這裏,爲了往後的spark源碼閱讀環境的方便和開發
安裝以後的幾個經常使用設置:
一、界面字體大小的設置
可見,界面字體的效果
二、代碼字體的設置
三、因咱們日常,用習慣了eclipse,快捷鍵,設置爲咱們日常,eclipse的風格。
完成
簡單,帶領,如何巧看spark源碼?
這裏,爲了不一個不利的閱讀,
放到D盤的根目錄下,
設置行號
其餘的源碼,首先,Ctrl + Shift + R,而後,自行去閱讀。
建議,在理解概念,真的,能夠拿源碼來幫助理解!
總結
因此啊,源碼 + 官網 ,是黃金組合。
更新博客(2017年),見
同時,你們能夠關注個人我的博客:
http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/
人生苦短,我願分享。本公衆號將秉持活到老學到老學習無休止的交流分享開源精神,匯聚於互聯網和我的學習工做的精華乾貨知識,一切來於互聯網,反饋回互聯網。
目前研究領域:大數據、機器學習、深度學習、人工智能、數據挖掘、數據分析。 語言涉及:Java、Scala、Python、Shell、Linux等 。同時還涉及日常所使用的手機、電腦和互聯網上的使用技巧、問題和實用軟件。 只要你一直關注和呆在羣裏,天天必須有收穫
以及對應本平臺的QQ羣:161156071(大數據躺過的坑)