1 Spark基礎篇 1.1 Spark生態和安裝部署 在安裝過程當中,理解其基本操做步驟。 安裝部署 Spark安裝簡單介紹 Spark的源代碼編譯 Spark Standalone安裝 Spark Standalone HA安裝 Spark應用程序部署工具spark-submit Spark生態 Spark(內存計算框架) SparkSteaming(流式計算框架) Spark SQL(ad-hoc) Mllib(Machine Learning) GraphX(bagel將被代替) 1.2 Spark執行架構和解析 Spark的執行架構 基本術語 執行架構 Spark on Standalone執行過程 Spark on YARN 執行過程 Spark執行實例解析 Spark on Standalone實例解析 Spark on YARN實例解析 1.3 Spark的監控和調優 Spark的監控 Spark UI監控,默認port是4040 Ganglia 監控,大數據監控開源框架 Spark調優 基礎性調優方式 1.4 Spark編程模型 Spark的編程模型 Spark編程模型解析 RDD的特色、操做、依賴關係 Spark應用程序的配置 Spark編程實例解析 日誌的處理 1.5 Spark Streaming原理 Spark流式處理架構 DStream的特色 Dstream的操做和RDD的差異 Spark Streaming的優化 Spark Streaming實例分析 常用的實例程序: 文本實例 Window操做 網絡數據處理 1.6 Spark SQL原理 Spark SQL的Catalyst優化器 Spark SQL內核 Spark SQL和Hive Spark SQL的實例 Spark SQL的實例操做demo Spark SQL的編程,需要網絡上查找一些資源 2 中級篇 2.1 Spark的多語言編程 Spark的scala編程 Spark的Python編程(Java必定熟悉啦,不用多說了) 相應的應用程序實例,理解主要的處理模式。 2.2 Spark 機器學習入門 機器學習的原理 Mllib簡單介紹,實例分析 2.3 GraphX 入門 圖論基礎 GraphX的簡單介紹 GraphX例程分析 2.4 理解Spark與其餘項目的差異和聯繫 Spark和MapReduce、Tez Spark的衍生項目BlinkDB,RSpark 2.5 關注Spark的做者的blog和權威站點的文檔 3 高級篇 3.1 深刻理解Spark的架構和處理模式 3.2 Spark源代碼剖析與研讀 Spark Core核心模塊, 掌握如下核心功能的處理邏輯: SparkContext Executor Deploy RDD和Storage Scheduler和Task Spark Examples 3.3 思考怎樣優化和提高,掌握其優缺點, 深刻思考能不能衍生出有意思的課題。
以上就是學習Spark的有關內容和步驟,詳細怎樣學習,仁者見仁智者見智。編程