本課程針對企業不一樣數據規模技術方案進行講解,緊貼企業熱門需求,深刻講解企業級大數據技術的數據存儲技術、數據採集技術、數據處理技術、任務調度技術等;課程針對知識點進行企業級案例式教學,理論結合實戰,從0到1構建大數據生態技術的方方面面,內容涵蓋大數據平臺、Spark、Flink、OLAP等核心技術;用真實的企業級實時數倉項目、離線數倉項目、PB級實時用戶行爲分析系統、千億級實時廣告系統等多個大型項目,把大數據生態技術知識串連起來,讓學員造成本身的技術棧,真正成爲企業級的大數據開發工程師!算法
階段一:小規模數據處理篇
第一單元
掌握Python基礎語法
編程
- 集合類型
- 條件,循環
- 文件操做
- 函數和函數式編程
- 面向對象
第二單元
掌握NumPy進行數據分析
數組
- NumPy基本使用
- Numpy進階知識
第三單元
掌握Pandas進行數據分析 - Pandas基礎知識
- Series數據結構
- DataFrame數據結構
- 綜合案例演示
階段二:中等規模數據處理篇
第四單元
掌握Elastichsearch核心設計 - Elastichsearch整體架構設計
- Elastichsearch核心流程分析
- Elastichsearch核心概念詳解
第五單元
掌握Elastichsearch API使用與調優 - Elastichsearch語法詳解
- Elastichsearch容錯原理剖析
- Elastichsearch性能調優
第六單元
掌握ELK生態針對中等數據規模的方案實踐 - Logstash原理剖析與實戰
- Kibana原理剖析與實戰
- 企業級海量日誌分析系統實戰
階段三:大數據基礎平臺篇
第七單元
掌握ZooKeeper核心設計與應用 - ZooKeeper架構設計原理
- ZooKeeper核心讀寫流程剖析
- ZooKeeper企業應用場景實戰
第八單元
掌握HDFS核心架構原理 - 大數據基礎知識
- HDFS架構設計原理
第九單元
掌握HDFS企業級架構方案設計 - HDFS高可用架構設計
- HDFS聯邦架構設計
- HDFS企業級集羣部署
第十單元
掌握MapReduce分佈式計算模型 - MapReduce核心原理剖析
- MapReduce Shuffle機制深度剖析
- MapReduce案例實操
第十一單元
掌握YARN任務調度模型 - YARN架構設計原理
- YARN核心運行流程
階段四:大數據存儲篇
第十二單元
掌握Hive核心架構設計 - Hive生態體系
- Hive集羣安裝
- HQL語法精講
第十三單元
掌握Hive企業實操 - Hive函數精講
- Hive執行原理深度剖析
第十四單元
掌握Hive企業級解決方案 - Hive企業級調優
- Hive企業高頻業務場景剖
第十五單元
掌握HBase核心架構原理 - HBase架構設計原理剖析
- HBase數據模型
- HBase數據模型
- HBase讀寫原理剖析
- HBase企業級集羣分佈式部署
第十六單元
握HBase企業設計方案 - HBase表設計
- HBase RowKey設計
- HBase二級索引方案實踐
第十七單元
掌握Kafka核心架構設計 - Kafka架構設計原理
- Kafka核心概念深度剖析
第十八單元
掌握Kafka架構設計優點與運維 - Kafka架構設計優點
- Kafka集羣部署與運維
第十九單元
掌握Kafka客戶端原理與性能調優 - Kafka生產者原理深度剖析
- Kafka消費者原理
- Kafka性能調優
階段五:大數據採集篇
第二十單元
掌握Flume/Sqoop日誌採集系統實踐 - Sqoop核心原理剖析
- Sqoop企業案例實操
- Flume核心原理剖析
- Flume企業案例實操
階段六:任務調度篇
第二十一單元
掌握Azkaban任務調度實踐 - Azkanban架構原理
- Azkanban企業案例實操
階段七:大數據處理篇
第二十二單元
掌握SparkCore核心原理(上) - Spark任務運行流程
- RDD核心原理剖析
- Spark任務運行模式
- Spark核心算子案例實踐
- Spark企業級集羣分佈式部署
第二十三單元
掌握SparkCore核心原理(下) - 廣播變量與累加變量原理剖析
- 窄依賴和寬依賴原理剖析
- Stage劃分算法
- Spark內存模型
第二十四單元
掌握SparkCore企業級調優 - SparkCore企業級調優實踐
第二十五單元
掌握SparkSQL核心原理與實踐 - SparkSQL的前世此生
- DataFrame核心原理剖析
- DataSet核心原理剖析
- UDF/UDAF案例實踐
第二十六單元
掌握SparkStreaming核心原理 - SparkStreaming任務運行流程
- DStream核心抽象原理剖析
第二十七單元
掌握SparkStreaming核心API企業實踐 - SparkStreaming高階函數實操
- SparkStreaming容錯分析
第二十八單元
掌握SparkStreaming企業應用 - SparkStreaming企業級數據令零丟失方案設計
- SparkStreaming企業級監控告警方案設計
第二十九單元
掌握Flink任務調度原理與資源分配 - Streaming運行原理
- 數據傳輸策略
- Flink並行度&Task原理剖析
- Flink資源調度原理剖析
- Flink集羣分佈式部署
第三十單元
掌握Flink-Streaming State核心設計與實踐 - State類型深度剖析
- State核心原理深度剖析
- Checkpoint & Savepoint企業實踐
第三十一單元
掌握Flink-Streaming WasterMark核心設計與實踐 - Time時間類型詳解
- 有序事件與無序事件
- WaterMark原理剖析與實踐
第三十二單元
掌握Flink-Streaming Window核心設計與實踐 - Window原理深度剖析
- Window觸發原理深度剖析與實踐
第三十三單元
掌握Flink-Streaming企業應用 - 綜合案例實踐
第三十四單元
掌握Flink SQL企業實踐 -
- Flink SQL編程詳解
- Flink SQL動態表與連續表
- 表流轉模式剖析
- Flink SQL案例實踐
第三十五單元
掌握Druid架構原理與實踐 - Druid架構設計原理
- Druid案例實踐
第三十六單元
掌握Kylin架構原理與實踐 - Kylin架構設計原理
- Kylin案例實踐
第三十七單元
掌握ClickHouse架構原理與實踐 - ClickHouse架構設計原理
- ClickHouse案例實踐贈送知識第一單元企業級大數據集羣部署和運維篇1.Ambari功能概述2.Ambari架構設計3.Ambari基礎環境準備4.企業級集羣部署安裝5.企業級集羣管理和實踐6.ClouderaManager產生背景7.ClouderaManager架構設計8.企業級集羣規劃9.ClouderaManager基礎環境準備10.企業級ClouderaManager集羣部署安裝11.企業級CDH集羣運維管理第二單元 Java知識準備 1.Java基礎知識2.循環語句3.面向對象4.Java集合5.Java多線程6.Java IO詳解7.Java NIO詳解8.綜合案例實踐第三單元Scala知識準備 2.變量3.數據類型4.方法和函數5.數組6.類的定義7.構造函數8.Scala對象9.Trait10.Scala模式匹配11.隱式轉換12.上界和下界13.Actor14.綜合案例實踐第四單元Linux/Shell知識準備1.Linux操做系統介紹2.Vmware安裝和介紹3.Linux命令分類4.Linux命令詳解5.vi編輯器詳解6.用戶和組7.權限管理8.crontab管理9.網絡10文本處理11.SSH協議12.Shell編程