奈學教育《大數據開發工程師》課程大綱

本課程針對企業不一樣數據規模技術方案進行講解，緊貼企業熱門需求，深刻講解企業級大數據技術的數據存儲技術、數據採集技術、數據處理技術、任務調度技術等；課程針對知識點進行企業級案例式教學，理論結合實戰，從0到1構建大數據生態技術的方方面面，內容涵蓋大數據平臺、Spark、Flink、OLAP等核心技術；用真實的企業級實時數倉項目、離線數倉項目、PB級實時用戶行爲分析系統、千億級實時廣告系統等多個大型項目，把大數據生態技術知識串連起來，讓學員造成本身的技術棧，真正成爲企業級的大數據開發工程師！算法

階段一：小規模數據處理篇
第一單元
掌握Python基礎語法

編程

集合類型
條件，循環
文件操做
函數和函數式編程
面向對象

第二單元
掌握NumPy進行數據分析
數組

NumPy基本使用
Numpy進階知識
第三單元
掌握Pandas進行數據分析
Pandas基礎知識
Series數據結構
DataFrame數據結構
綜合案例演示
階段二：中等規模數據處理篇
第四單元
掌握Elastichsearch核心設計
Elastichsearch整體架構設計
Elastichsearch核心流程分析
Elastichsearch核心概念詳解
第五單元
掌握Elastichsearch API使用與調優
Elastichsearch語法詳解
Elastichsearch容錯原理剖析
Elastichsearch性能調優
第六單元
掌握ELK生態針對中等數據規模的方案實踐
Logstash原理剖析與實戰
Kibana原理剖析與實戰
企業級海量日誌分析系統實戰
階段三：大數據基礎平臺篇
第七單元
掌握ZooKeeper核心設計與應用
ZooKeeper架構設計原理
ZooKeeper核心讀寫流程剖析
ZooKeeper企業應用場景實戰
第八單元
掌握HDFS核心架構原理
大數據基礎知識
HDFS架構設計原理
第九單元
掌握HDFS企業級架構方案設計
HDFS高可用架構設計
HDFS聯邦架構設計
HDFS企業級集羣部署
第十單元
掌握MapReduce分佈式計算模型
MapReduce核心原理剖析
MapReduce Shuffle機制深度剖析
MapReduce案例實操
第十一單元
掌握YARN任務調度模型
YARN架構設計原理
YARN核心運行流程
階段四：大數據存儲篇
第十二單元
掌握Hive核心架構設計
Hive生態體系
Hive集羣安裝
HQL語法精講
第十三單元
掌握Hive企業實操
Hive函數精講
Hive執行原理深度剖析
第十四單元
掌握Hive企業級解決方案
Hive企業級調優
Hive企業高頻業務場景剖
第十五單元
掌握HBase核心架構原理
HBase架構設計原理剖析
HBase數據模型
HBase數據模型
HBase讀寫原理剖析
HBase企業級集羣分佈式部署
第十六單元
握HBase企業設計方案
HBase表設計
HBase RowKey設計
HBase二級索引方案實踐
第十七單元
掌握Kafka核心架構設計
Kafka架構設計原理
Kafka核心概念深度剖析
第十八單元
掌握Kafka架構設計優點與運維
Kafka架構設計優點
Kafka集羣部署與運維
第十九單元
掌握Kafka客戶端原理與性能調優
Kafka生產者原理深度剖析
Kafka消費者原理
Kafka性能調優
階段五：大數據採集篇
第二十單元
掌握Flume/Sqoop日誌採集系統實踐
Sqoop核心原理剖析
Sqoop企業案例實操
Flume核心原理剖析
Flume企業案例實操
階段六：任務調度篇
第二十一單元
掌握Azkaban任務調度實踐
Azkanban架構原理
Azkanban企業案例實操
階段七：大數據處理篇
第二十二單元
掌握SparkCore核心原理（上）
Spark任務運行流程
RDD核心原理剖析
Spark任務運行模式
Spark核心算子案例實踐
Spark企業級集羣分佈式部署
第二十三單元
掌握SparkCore核心原理（下）
廣播變量與累加變量原理剖析
窄依賴和寬依賴原理剖析
Stage劃分算法
Spark內存模型
第二十四單元
掌握SparkCore企業級調優
SparkCore企業級調優實踐
第二十五單元
掌握SparkSQL核心原理與實踐
SparkSQL的前世此生
DataFrame核心原理剖析
DataSet核心原理剖析
UDF/UDAF案例實踐
第二十六單元
掌握SparkStreaming核心原理
SparkStreaming任務運行流程
DStream核心抽象原理剖析
第二十七單元
掌握SparkStreaming核心API企業實踐
SparkStreaming高階函數實操
SparkStreaming容錯分析
第二十八單元
掌握SparkStreaming企業應用
SparkStreaming企業級數據令零丟失方案設計
SparkStreaming企業級監控告警方案設計
第二十九單元
掌握Flink任務調度原理與資源分配
Streaming運行原理
數據傳輸策略
Flink並行度&Task原理剖析
Flink資源調度原理剖析
Flink集羣分佈式部署
第三十單元
掌握Flink-Streaming State核心設計與實踐
State類型深度剖析
State核心原理深度剖析
Checkpoint & Savepoint企業實踐
第三十一單元
掌握Flink-Streaming WasterMark核心設計與實踐
Time時間類型詳解
有序事件與無序事件
WaterMark原理剖析與實踐
第三十二單元
掌握Flink-Streaming Window核心設計與實踐
Window原理深度剖析
Window觸發原理深度剖析與實踐
第三十三單元
掌握Flink-Streaming企業應用
綜合案例實踐
第三十四單元
掌握Flink SQL企業實踐
1. Flink SQL編程詳解
Flink SQL動態表與連續表
表流轉模式剖析
Flink SQL案例實踐
第三十五單元
掌握Druid架構原理與實踐
Druid架構設計原理
Druid案例實踐
第三十六單元
掌握Kylin架構原理與實踐
Kylin架構設計原理
Kylin案例實踐
第三十七單元
掌握ClickHouse架構原理與實踐
ClickHouse架構設計原理
ClickHouse案例實踐贈送知識第一單元企業級大數據集羣部署和運維篇1.Ambari功能概述2.Ambari架構設計3.Ambari基礎環境準備4.企業級集羣部署安裝5.企業級集羣管理和實踐6.ClouderaManager產生背景7.ClouderaManager架構設計8.企業級集羣規劃9.ClouderaManager基礎環境準備10.企業級ClouderaManager集羣部署安裝11.企業級CDH集羣運維管理第二單元 Java知識準備 1.Java基礎知識2.循環語句3.面向對象4.Java集合5.Java多線程6.Java IO詳解7.Java NIO詳解8.綜合案例實踐第三單元Scala知識準備 2.變量3.數據類型4.方法和函數5.數組6.類的定義7.構造函數8.Scala對象9.Trait10.Scala模式匹配11.隱式轉換12.上界和下界13.Actor14.綜合案例實踐第四單元Linux/Shell知識準備1.Linux操做系統介紹2.Vmware安裝和介紹3.Linux命令分類4.Linux命令詳解5.vi編輯器詳解6.用戶和組7.權限管理8.crontab管理9.網絡10文本處理11.SSH協議12.Shell編程