Spark學習資料共享

連接相關

課件代碼:http://pan.baidu.com/s/1nvbkRSt
教學視頻:http://pan.baidu.com/s/1c12XsIG
這是最近買的付費教程,對資料感興趣的能夠在下方留下郵件地址,我會按期進行密碼發送。算法


課程簡介

以目前主流的,最新的spark穩定版2.1.x爲基礎,深刻淺出地介紹Spark生態系統原理及應用,內容包括Spark各組件(Spark Core/SQL/Streaming/MLlib)基本原理,使用方法,實戰經驗以及在線演示。本課程精心設計了五個企業級應用案例,幫助你們在理解理論的基礎上,親手實踐和應用spark。編程


課程優化

  1. 講述最新、最穩定的Spark2.1.X版本
  2. 精心設計5個企業級應用案例,更好地實踐、應用Spark

面向人羣

  1. 大數據愛好者
  2. Spark初中級學者
  3. 對Spark感興趣、想系統性學習者

學習收益

  1. 熟練使用Spark, 理解Spark原理,熟知Spark內幕
  2. 掌握Spark 2.1新增特性並熟練使用
  3. 用有豐富的Spark企業實戰經驗

課程大綱

第一部分: Spark 概述架構

  • 第一課:Spark 2.1概述
      1. Spark產生背景
        包括mapreduce缺陷,多計算框架並存等
      1. Spark 基本特色
      1. Spark版本演化
      1. Spark核心概念
        包括RDD, transformation, action, cache等
      1. Spark生態系統
        包括Spark生態系統構成,以及與Hadoop生態系統關係
      1. Spark在互聯網公司中的地位與應用
        介紹當前互聯網公司的Spark應用案例
      1. Spark集羣搭建
        包括測試集羣搭建和生產環境中集羣搭建方法,並親手演示整個過程
      1. 背景知識補充介紹
      • a. Hadoop基礎
      • b. HDFS簡介(特色、架構與應用)
      • c. YARN簡介(架構)
      • d. MapReduce簡介(編程模型與應用)
        • I. Eclipse與Intellij IDEA
        • II. Maven

第二部分: Spark Core併發

  • 第二課:Spark 程序設計與企業級應用案例
      1. Spark運行模式介紹
        Spark運行組件構成,spark運行模式(local、standalone、mesos/yarn等)
      1. Spark開發環境構建
        集成開發環境選擇,親手演示spark程序開發與調試,spark運行
      1. 常見transformation與action用法
        介紹常見transformation與action使用方法,以及代碼片斷剖析
      1. 常見控制函數介紹
        包括cache、broadcast、accumulator等
      1. Spark 應用案例:電影受衆分析系統
        包括:背景介紹,數據導入,數據分析,常見Spark transformation和action用法在線演示
  • 第三課:Spark 內部原理剖析與源碼閱讀
      1. Spark運行模式剖析
        深刻分析spark運行模式,包括local,standalone以及spark on yarn
      1. Spark運行流程剖析
        包括spark邏輯查詢計劃,物理查詢計劃以及分佈式執行
      1. Spark shuffle剖析
        深刻介紹spark shuffle的實現,主要介紹hash-based和sort-based兩種實現
      1. Spark 源碼閱讀
        Spark源碼構成以及閱讀方法
  • 第四課:Spark 程序調優技巧
      1. 數據存儲格式調優
        數據存儲格式選擇,數據壓縮算法選擇等
      1. 資源調優
        如何設置合理的executor、cpu和內存數目,YARN多租戶調度器合理設置,啓用YARN的標籤調度策略等
      1. 程序參數調優
        介紹常見的調優參數,包括避免沒必要要的文件分發,調整任務併發度,提升數據本地性,JVM參數調優,序列化等
      1. 程序實現調優
        如何選擇最合適的transformation與action函數
      1. 調優案例分享與演示
        演示一個調優案例,如何將一個spark程序的性能逐步優化20倍以上。

第三部分 Spark SQL 2.1框架

  • 第五課:Spark SQL基本原理
      1. Spark SQL是什麼
      1. Spark SQL基本原理
      1. Spark Dataframe與DataSet
      1. Spark SQL與Spark Core的關係
  • 第六課:Spark SQL程序設計與企業級應用案例
      1. Spark SQL程序設計
      • a. 如何訪問MySQL、HDFS等數據源,如何處理parquet格式數據
      • b. 經常使用的DSL語法有哪些,如何使用
      • c. Spark SQL調優技巧
      1. Spark SQL應用案例:籃球運動員評估系統
      • a. 背景介紹
      • b. 數據導入
      • c. 數據分析
      • d. 結論

第四部分 Spark Streaming分佈式

  • 第七課:Spark Streaming、程序設計及應用案例
    • 1.Spark Streaming基本原理
      • a. Spark Streaming是什麼
      • b. Spark Streaming基本原理
      • c. Structured Streaming
      • d. Spark Streaming 編程接口介紹
      • e. Spark Streaming應用案例
      1. Spark Streaming程序設計與企業級應用案例
      • a. 常見流式數據處理模式
      • b. Spark Streaming與Kafka 交互
      • c. Spark Streaming與Redis交互
      • d. Spark Streaming部署與運行
      • e. Spark Streaming企業級案例:用戶行爲實時分析系統

第五部分 Spark MLlib函數

  • 第八課: Spark MLlib及企業級案例
      1. Spark MLlib簡介
      1. 數據表示方式
      1. MLlib中的聚類、分類和推薦算法
      1. 如何使用MLlib的算法
      1. Spark MLLib企業級案例:信用卡欺詐檢測系統

第六部分Spark綜合案例oop

  • 第九課:簡易電影推薦系統
      1. 背景介紹
      1. 什麼是Lambda architecture
      1. 利用HDFS+Spark Core+MLlib+Redis構建批處理線
      1. 利用Kafka+Spark Streaming+Redis構建實時處理線
      1. 整合批處理和實時處理線
      1. 擴展介紹:Apache beam:統一編程模型及應用

圖片相關

相關文章
相關標籤/搜索