大數據學習方向

時間 2019-11-18

標籤數據學習方向简体版

原文原文鏈接

1、大數據運維之Linux基礎

打好Linux基礎，以便更好地學習Hadoop，hbase,NoSQL，Spark，Storm，docker,openstack等。由於企業
中的項目基本上都是使用Linux環境下搭建或部署的。前端

1）Linux系統概述
2）系統安裝及相關配置
3）Linux網絡基礎
4）OpenSSH實現網絡安全鏈接
5）vi文本編輯器mysql

6）用戶和用戶組管理
7）磁盤管理
8）Linux文件和目錄管理
9）Linux終端經常使用命令
10）linux系統監測與維護linux

2、大數據開發核心技術 - Hadoop 2.x從入門到精通

大數據的基石：其一，分佈式文件系統HDFS用於存儲海量數據，不管是Hive、HBase或者Spark數據存儲在其上面；其二是分佈式資源管理框架
YARN，是Hadoop 雲操做系統（也稱數據系統），管理集羣資源和分佈式數據處理框架MapReduce、Spark應用的資源調度與監控；分佈式並行計算框架
MapReduce目前是海量數據並行處理的一個最經常使用的框架。Hadoop 2.x的編譯、環境搭建、HDFS Shell使用，YARN 集羣資源管理與任務監控，MapReduce編
程，分佈式集羣的部署管理（包括高可用性HA）必需要掌握的。nginx

1、初識Hadoop 2.x 1）大數據應用發展、前景 2）Hadoop 2.x概述及生態系統 3）Hadoop 2.x環境搭建與測試redis	2、深刻Hadoop 2.x 1）HDFS文件系統的架構、功能、設計 2）HDFS Java API使用 3）YARN 架構、集羣管理、應用監控 4）MapReduce編程模型、Shuffle過程、編程調優算法
3、高級Hadoop 2.x 1）分佈式部署Hadoop 2.x 2）分佈式協做服務框架Zookeeper 3）HDFS HA架構、配置、測試 4）HDFS 2.x中高級特性 5）YARN HA架構、配置 6）Hadoop 主要發行版本（CDH、HDP、Apache）sql

3、大數據開發核心技術 - 大數據倉庫Hive

hive是基於Hadoop的一個數據倉庫工具，能夠將結構化的數據文件映射爲一張數據庫表，並提供簡單的sql查詢功能，能夠將sql語句轉換爲MapReduce任務進行
運行。其優勢是學習成本低，能夠通類SQL語句快速實現簡單的MapReduce統計，沒必要開發專門的MapReduce應用，十分適合數據倉庫的統計分析。docker

1、Hive 初識入門 1）Hive功能、體系結構、使用場景 2）Hive環境搭建、初級使用 3）Hive原數據配置、常見交互方式shell	2、Hive深刻使用 1）Hive中的內部表、外部表、分區表 2）Hive 數據遷移 3）Hive常見查詢（select、where、distinct、join、group by） 4）Hive 內置函數和UDF編程數據庫
3、Hive高級進階 1）Hive數據的存儲和壓縮 2）Hive常見優化（數據傾斜、壓縮等）	4、結合實際案例分析 1）依據業務設計表 2）數據清洗、導入（ETL） 3）使用HiveQL，統計常見的網站指標

4、大數據協做框架 - Sqoop/Flume/Oozie

Sqoop是一款開源的工具，主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞，能夠將一個關係型數據庫（例如： MySQL
,Oracle ,Postgres等）中的數據導進到關係型數據庫中。Sqoop項目開始於2009年，最先是做爲Hadoop的一個第三方模塊存在，後來爲了讓使用者可以快速部
署，也爲了讓開發人員可以更快速的迭代開發，Sqoop獨立成爲一個Apache項目。

1、數據轉換工具Sqoop 1）Sqoop功能、使用原則 2）將RDBMS數據導入Hive表中（全量、增量） 3）將HDFS上文件導出到RDBMS表中	2、文件收集框架Flume 1）Flume 設計架構、原理（三大組件） 2）Flume初步使用，實時採集數據 3）如何使用Flume監控文件夾數據，實時採集錄入HDFS中 4）任務調度框架Oozie
3、Oozie功能、安裝部署 1）使用Oozie調度MapReduce Job和HiveQL 2）定時調度任務使用

5、大數據Web開發框架 - 大數據WEB 工具Hue

Hue是一個開源的Apache Hadoop UI系統，最先是由Cloudera Desktop演化而來，由Cloudera貢獻給開源社區，它是基於Python Web框架Django實現的。通
過使用Hue咱們能夠在瀏覽器端的Web控制檯上與Hadoop集羣進行交互來分析處理數據，例如操做HDFS上的數據，運行MapReduce Job等等。

1）Hue架構、功能、編譯
2）Hue集成HDFS
3）Hue集成MapReduce

4）Hue集成Hive、DataBase
5）Hue集成Oozie

6、大數據核心開發技術 - 分佈式數據庫HBase從入門到精通

HBase是一個分佈式的、面向列的開源數據庫，該技術來源於 Fay Chang 所撰寫的Google論文「Bigtable：一個結構化數據的分佈式存儲系統」。HBase在
Hadoop之上提供了相似於Bigtable的能力，是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統，利用HBase技術可在廉價PC Server上搭建起大
規模結構化存儲集羣

1、HBase初窺使用 1）HBase是什麼、發展、與RDBMS相比優點、企業使用 2）HBase Schema、表的設計 3）HBase 環境搭建、shell初步使用（CRUD等）	2、HBase 深刻使用 1）HBase 數據存儲模型 2）HBase Java API使用（CRUD、SCAN等） 3）HBase 架構深刻剖析 4）HBase 與MapReduce集成、數據導入導出
3、HBase 高級使用 1）如何設計表、表的預分區（依據具體業務分析講解） 2）HBase 表的常見屬性設置（結合企業實際） 3）HBase Admin操做（Java API、常見命令）	4、進行分析 1）依據需求設計表、建立表、預分區 2）進行業務查詢分析 3）對於密集型讀和密集型寫進行HBase參數調優

7、大數據核心開發技術 - Storm實時數據處理

Storm是Twitter開源的分佈式實時大數據處理框架，被業界稱爲實時版Hadoop。隨着愈來愈多的場景對Hadoop的MapReduce高延遲沒法容忍，好比網站統計、
推薦系統、預警系統、金融系統(高頻交易、股票)等等，大數據實時處理解決方案（流計算）的應用日趨普遍，目前已經是分佈式技術領域最新爆發點，而Storm更是
流計算技術中的佼佼者和主流。按照storm做者的說法，Storm對於實時計算的意義相似於Hadoop對於批處理的意義。Hadoop提供了map、reduce原語，使我
們的批處理程序變得簡單和高效。一樣，Storm也爲實時計算提供了一些簡單高效的原語，並且Storm的Trident是基於Storm原語更高級的抽象框架，相似於基於
Hadoop的Pig框架，讓開發更加便利和高效。本課程會深刻、全面的講解Storm，並穿插企業場景實戰講述Storm的運用。淘寶雙11的大屏幕實時監控效果衝擊
了整個IT界，業界爲之驚歎的同時更是引發對該技術的探索。能夠本身開發升級版的「淘寶雙11」？

1）Storm簡介和課程介紹
2）Storm原理和概念詳解
3）Zookeeper集羣搭建及基本使用
4）Storm集羣搭建及測試
5）API簡介和入門案例開發
6）Spout的Tail特性、storm-starter及maven使用、Grouping策略
7）實例講解Grouping策略及併發
8）併發度詳解、案例開發（高併發運用）
9）案例開發——計算網站PV，經過2種方式實現彙總型計算。
10）案例優化引入Zookeeper鎖控制線程操做
11）計算網站UV(去重計算模式)
12）【運維】集羣統一啓動和中止shell腳本開發
13）Storm事務工做原理深刻講解 14）Storm事務API及案例分析

15）Storm事務案例實戰之 ITransactionalSpout
16）Storm事務案例升級之按天計算
17）Storm分區事務案例實戰
18）Storm不透明分區事務案例實戰
19）DRPC精解和案例分析
20）Storm Trident 入門
21）Trident API和概念
22）Storm Trident實戰之計算網站PV
23）ITridentSpout、FirstN(取Top N)實現、流合併和Join
24）Storm Trident之函數、流聚合及核心概念State
25）Storm Trident綜合實戰一（基於HBase的State）
26）Storm Trident綜合實戰二
27）Storm Trident綜合實戰三
28）Storm集羣和做業監控告警開發

8、Spark技術實戰之基礎篇 -Scala語言從入門到精通

爲何要學習Scala？源於Spark的流行，Spark是當前最流行的開源大數據內存計算框架，採用Scala語言實現，各大公司都在使用Spark：IBM宣佈承諾大力推動
Apache Spark項目，並稱該項目爲：在以數據爲主導的，將來十年最爲重要的新的開源項目。這一承諾的核心是將Spark嵌入IBM業內領先的分析和商務平臺，
Scala具備數據處理的自然優點，Scala是將來大數據處理的主流語言

1)-Spark的前世此生
2)-課程介紹、特點與價值
3)-Scala編程詳解：基礎語法
4)-Scala編程詳解：條件控制與循環
5)-Scala編程詳解：函數入門
6)-Scala編程詳解：函數入門之默認參數和帶名參數
7)-Scala編程詳解：函數入門之變長參數
8)-Scala編程詳解：函數入門之過程、lazy值和異常
9)-Scala編程詳解：數組操做之Array、ArrayBuffer以及遍歷數組
10)-Scala編程詳解：數組操做之數組轉換

11)-Scala編程詳解：Map與Tuple
12)-Scala編程詳解：面向對象編程之類
13)-Scala編程詳解：面向對象編程之對象
14)-Scala編程詳解：面向對象編程之繼承
15)-Scala編程詳解：面向對象編程之Trait
16)-Scala編程詳解：函數式編程
17)-Scala編程詳解：函數式編程之集合操做
18)-Scala編程詳解：模式匹配
19)-Scala編程詳解：類型參數
20)-Scala編程詳解：隱式轉換與隱式參數
21)-Scala編程詳解：Actor入門

9、大數據核心開發技術 - 內存計算框架Spark

Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用並行框架，Spark，擁有Hadoop MapReduce所具備的優勢。啓用了內存分佈數據集，除
了可以提供交互式查詢外，它還能夠優化迭代工做負載。Spark Streaming: 構建在Spark上處理Stream數據的框架，基本的原理是將Stream數據分紅小的時間片段
（幾秒），以相似batch批量處理的方式來處理這小部分數據

1）Spark 初識入門
2）Spark 概述、生態系統、與MapReduce比較
3）Spark 編譯、安裝部署（Standalone Mode）及測試
4）Spark應用提交工具（spark-submit，spark-shell）
5）Scala基本知識講解（變量，類，高階函數）
6）Spark 核心RDD
7）RDD特性、常見操做、緩存策略
8）RDD Dependency、Stage常、源碼分析
9）Spark 核心組件概述

10）案例分析
11）Spark 高階應用
12）Spark on YARN運行原理、運行模式及測試
13）Spark HistoryServer歷史應用監控
14）Spark Streaming流式計算
15）Spark Streaming 原理、DStream設計
16）Spark Streaming 常見input、out
17）Spark Streaming 與Kafka集成
18）使用Spark進行分析

10、大數據核心開發技術 - Spark深刻剖析

1）Scala編程、Hadoop與Spark集羣搭建、Spark核心編程、Spark內核源碼深度剖析、Spark性能調優
2）Spark源碼剖析

11、企業大數據平臺高級應用

完成大數據相關企業場景與解決方案的剖析應用及結合一個電子商務平臺進行實戰分析，主要包括有：企業大數據平臺概述、搭建企業
大數據平臺、真實服務器手把手環境部署、使用CM 5.3.x管理CDH 5.3.x集羣

1）企業大數據平臺概述
2）大數據平臺基本組件
3）Hadoop 發行版本、比較、選擇
4）集羣環境的準備（系統、基本配置、規劃等）
5）搭建企業大數據平臺
6）以實際企業項目需求爲依據，搭建平臺
7）需求分析（主要業務）
8）框架選擇（Hive\HBase\Spark等）

9）真實服務器手把手環境部署
10）安裝Cloudera Manager 5.3.x
11）使用CM 5.3.x安裝CDH 5.3.x
12）如何使用CM 5.3.x管理CDH 5.3.x集羣
13）基本配置，優化
14）基本性能測試
15）各個組件如何使用

12、項目實戰：驢媽媽旅遊網大型離線數據電商分析平臺

離線數據分析平臺是一種利用hadoop集羣開發工具的一種方式，主要做用是幫助公司對網站的應用有一個比較好的瞭解。尤爲是在電商、旅遊、銀行、證券、遊戲
等領域有很是普遍，由於這些領域對數據和用戶的特性把握要求比較高，因此對於離線數據的分析就有比較高的要求了。本課程講師本人以前在遊戲、旅遊等公司
專門從事離線數據分析平臺的搭建和開發等，經過此項目將全部大數據內容貫穿，並先後展現！

1）Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、離線數據分析，SpringMVC，Highchat
2）Flume+Hadoop+Hbase+SpringMVC+MyBatis+MySQL+Highcharts實現的電商離線數據分析
3）日誌收集系統、日誌分析、數據展現設計

十3、項目實戰：基於1號店的電商實時數據分析系統

1）全面掌握Storm完整項目開發思路和架構設計
2）掌握Storm Trident項目開發模式
3）掌握Kafka運維和API開發、與Storm接口開發
4）掌握HighCharts各種圖表開發和實時無刷新加載數據
5）熟練搭建CDH5生態環境完整平臺

6）靈活運用HBase做爲外部存儲
7）能夠作到以一己之力完成從後臺開發（Storm、Kafka、Hbase開發）
到前臺HighCharts圖表開發、Jquery運用等，全部工做一我的搞定！
能夠一我的搞定淘寶雙11大屏幕項目！

十4、項目實戰：基於美團網的大型離線電商數據分析平臺

本項目使用了Spark技術生態棧中最經常使用的三個技術框架，Spark Core、Spark SQL和Spark Streaming，進行離線計算和實時計算業務模塊的開發。實現了包括用
戶訪問session分析、頁面單跳轉化率統計、熱門商品離線統計、廣告點擊流量實時統計4個業務模塊。過合理的將實際業務模塊進行技術整合與改造，
該項目徹底涵蓋了Spark Core、Spark SQL和Spark Streaming這三個技術框架中幾乎全部的功能點、知識點以及性能優化點。僅一個項目，便可全面掌握Spark
技術在實際項目中如何實現各類類型的業務需求！在項目中，重點講解了實際企業項目中積累下來的寶貴的性能調優、troubleshooting以及數據傾斜解決方案等知識和技術

1）真實還原完整的企業級大數據項目開發流程：
項目中採用徹底還原企業大數據項目開發場景的方式來說解，
每個業務模塊的講解都包括了數據分析、需求分析、方案設計、數據庫設計、編碼實現、功能測試、性能調優、troubleshooting與解決數據傾斜（後期運維）等環節
，真實還原企業級大數據項目開發場景。
讓學員掌握真實大數據項目的開發流程和經驗！

2）現場Excel手工畫圖與寫筆記：全部複雜業務流程、架構原理
、Spark技術原理、業務需求分析、技術實現方案等知識的講解
，採用Excel畫圖或者寫詳細比較的方式進行講解與分析，
細緻入微、形象地透徹剖析理論知識，幫助學員更好的理解、記憶與複習鞏固。

十5、機器學習及實踐

基於PyMC語言以及一系列經常使用的Python數據分析框架，如NumPy、SciPy和Matplotlib，經過幾率編程的方式，講解了貝葉斯推斷的原理和實現方法。
該方法經常能夠在避免引入大量數學分析的前提下，有效地解決問題。課程中使用的案例每每是工做中遇到的實際問題，有趣而且實用。迴歸等算法有較爲深刻的瞭解，以Python編程語言爲基礎，在不涉及大量數學模型與複雜編程知識的前提下，熟悉而且掌握當下最流行的機器學習算法，如迴歸、決策樹、SVM等，並經過代碼實例來展現所討論的算法的實際應用。

1）Mahout、Spark MLlib概述
2）機器學習概述
3）線性迴歸及Mahout、SparkMLlib案例
4）Logistic迴歸、softmax分類及Mahout、SparkMLlib案例
5）KNN及Mahout、SparkMllib案例
6）SVM及Mahout、SparkMllib案例
7）決策樹及Mahout、SparkMllib案例

8）隨機森林及Mahout、SparkMllib案例
9）GBDT及Mahout、SparkMllib案例
10）KMeans及Mahout、SparkMllib案例
11）貝葉斯及Mahout、SparkMllib案例
12）集成學習
13）特徵處理及模型優化

十6、推薦系統

開發推薦系統的方法，尤爲是許多經典算法，重點探討如何衡量推薦系統的有效性。課程內容分爲基本概念和進展兩部分：前者涉及協同推薦、基於
內容的推薦、基於知識的推薦、混合推薦方法，推薦系統的解釋、評估推薦系統和實例分析；後者包括針對推薦系統的攻擊、在線消費決策、推薦系統和下一代互聯網以及普適環境中的推薦

1）協同過濾推薦
2）基於內容的推薦
3）基於知識的推薦
4）混合推薦方法

5）推薦系統的解釋　
6）評估推薦系統
7）案例研究

十7、分佈式搜索引擎Elasticsearch開發

聯網+、大數據、網絡爬蟲、搜索引擎等等這些概念，現在可謂煊赫一時

1）Elasticsearch概念
2）Elasticsearch安裝和插件介紹
3）Elasticsearch基本使用和簡單查詢
4）Elasticsearch的Java客戶端使用

5）Elasticsearch索引和Mapping
6）Elasticsearch搜索深刻
7）Elasticsearch與Spring集成
8）Elasticsearch實戰

十8、大數據高併發系統架構實戰方案(LVS負載均衡、Nginx、共享存儲、海量數據、隊列緩存 )

隨着互聯網的發展，高併發、大數據量的網站要求愈來愈高。而這些高要求都是基礎的技術和細節組合而成的。

十9、大數據高併發服務器實戰

隨着Web技術的普及，Internet上的各種網站第天都在雪崩式增加。但這些網站大多在性能上沒作過多考慮。固然,它們狀況不一樣。有的是Web技術自己的緣由（主
要是程序代碼問題）,還有就是因爲Web服務器未進行優化。無論是哪一種狀況，一但用戶量在短期內激增，網站就會明顯變慢，甚至拒絕放訪問。要想有效地解決
這些問題，就只有依靠不一樣的優化技術。本課程就是主要用於來解決大型網站性能問題，可以承受大數據、高併發。主要涉及技術有：nginx、tomcat、memcached、redis緩存、負載均衡等高級開發技術

大數據分析、數據可視化

二10、Tableau商業智能與可視化應用實戰

Tableau的數據鏈接與編輯、圖形編輯與展現功能，包括數據鏈接與管理、基礎與高級圖形分析、地圖分析、高級數據操做、基礎統計分析、如何與R集成進行高級分析、分析圖表整合以及分析成果共享等主要內容。

1）什麼是數據可視化？
2）如何用圖表講故事
3）Tableau發展歷程
4）Tableau家族產品
5）Tableau產品優點
6）Tableau Desktop安裝配置
7）Tableau的導航與菜單
8）Tableau設計流程最佳實踐
9）Tableau數據類型與文件
10）Tableau數據源初探
11）數據源深刻

12）工做表
13）Tableau中的函數與計算
14）Tableau高級分析與項目實戰
15）Tableau中的排序與篩選器
16）Tableau中的參數
17）Tableau圖表分析
18）Tableau地圖繪製與圖像
19）Tableau 儀表盤和故事
20）項目一_教育網站指標評估
21）項目二_網站用戶行爲分析
22）項目三_零售行業進銷存分析

二11、Echarts從入門到上手實戰

對數據可視化技術有一個全面、系統、深刻的瞭解，最終達到可以利用Echarts圖表結合後端數據進行前端可視化報表展現的目的，

1）數據可視化概述
2）什麼是數據可視化？
3）經典可視化案例
4）大數據可視化的價值
5）數據可視化工具、案例、書籍
6）Echarts概述
7）Echarts特性介紹
8）如何快速上手開發一個Echarts可視化圖表
9）如何閱讀Echarts官方文檔
10）Echarts學習必備基礎知識

11）Echarts3.x與Echarts2.x的區別
12）Echarts基礎架構與常見名詞術語
13）Echarts標準開發模板
14）十大常見圖表_小結
15）Echarts圖表高級
16）北上廣最佳前10航行路線圖
17）豆瓣最新熱映電影排名分析
18）圖表適用場景
19）數據可視化方法
20）數據可視化誤區

二12、Vue.js快速上手

Vue.js是一套構建用戶界面的輕量級MVVM框架，與其餘重量級框架不一樣的是， Vue.js 的核心庫只關注視圖層，而且很是容易學習，很容易與其它前端技術或已有的項目整合。本課程主要分兩部分講解：1.掌握Vue.js設計規範的語法；

1）Vue.js簡介和MVC、MVP以及MVVM架構
2）Vue.js介紹、開發工具的介紹以及HelloWorld程序演示
3）Vue.js的構造器和擴展
4）Vue實例的屬性
5）Vue實例生命週期
6）計算屬性及案例
7）方法調用
8）觀察屬性
9）文本、HTML插值
10）屬性插值和表達式
11）指令的格式
12）條件指令
13）v-show指令
14）v-bind指令
15）列表渲染
16）過濾器
17）事件處理