合格大數據分析師應該具有的技能

 

 

 

 

階段1、業務數據分析師

課程1、數據挖掘/分析師之硬技能 - 必備經常使用工具使用與高級技巧

本部份內容主要介紹了數據挖掘、分析師、數據產品經理必備的經常使用工具的,主要有 Excel,Visio,Xmind,PPT的涉及圖表數據分析方面的高級技巧,包括但不限於:數據透視表演練、Vision跨職能流程圖演練、Xmind項目計劃導圖演練、PPT高級動畫技巧等!vue

1、Excel

1)數據分析工具EXECL入門介紹
2)數據透視表演練 
3) 數據處理
4) EXECL報告自動化
5) PPT報告數據自動化java

2、Visio

1)流程圖visio入門介紹
2)案例1:基本流程圖演練 
3)案例2:跨職能流程圖演練 
4)案例3:UML模型圖演練 
5)案例4:數據庫、數據流模型圖演練python

3、Xmind

1) 思惟導圖xmind入門介紹 
2)案例1:項目計劃導圖演練 
3)案例2:拼車APP功能導圖分析演練linux

4、 PPT

1) 辦公PPT入門介紹
2)案例演示程序員

課程2、數據挖掘/分析師之硬技能 - 零基礎到數據挖掘精通(Excel、Oracle、SPSS初步)

本課程介紹了數據挖掘技術基本的概念、功能、使用人員所需能力、使用方式以及數據挖掘部分主流算法實現方式。課程中嵌入了oracle數據庫和辦公軟件excel,
這兩款軟件主要用於存儲及處理數據挖掘所需的數據,其中還使用excel做爲簡單入門工具對數據挖掘進行了算法實現,該部分主要用於幫助你們對數據挖掘相關知
識有一個全面和大概的瞭解。在此基礎上,後期使用數據挖掘專業工具SPSS MODELER結合一些案例對以前的excle實現的挖掘算法部分進行了深刻學習以及增長了
一些SPSS MODELER自帶的算法模塊講解。課程除了主要講解了數據挖掘知識和技術,同時其中還涉及了部分oracle數據庫知識、sql語句和excel的函數運用。web

1、數據挖掘基礎內容講解

1)數據挖掘初探之功能介紹
2)excel基礎知識及應用示範 
3)Oracle數據庫安裝及應用示範 
4)數據預處理(excel+Oracle) 
5)預測算法-線性迴歸 
6)分類算法 
7)關聯算法 
8)聚類算法 
9)最優化求解 算法

2、SPSS MODELER數據挖掘

1)SPSS Modeler 下載安裝及常規數據操做
2)SPSS Modeler數據探索及分析
3)SPSS Modeler圖形探索及分析
4)SPSS Modeler迴歸分析建模
5)SPSS Modeler邏輯分析建模
6)RFM介紹、建模及模型應用 
7)SPSS Modeler分類
8)SPSS Modeler關聯分析
9)SPSS Modeler聚類分析sql

課程3、數據挖掘/分析師之軟技能 - 數據分析入門

本課程讓學員明確數據分析思路和主要步驟,瞭解互聯網分行業關鍵數據指標,熟練掌握經常使用的數據分析方法和數據分析方法的應用,熟練掌握數據分析報告的結構和應用。mongodb

1)數據分析概念、做用和步驟
2)數據分析方法論 
3)數據分析經常使用方法docker

4)數據圖表講解
5)數據關鍵指標講解 
6)數據分析報告講解

課程4、數據挖掘/分析師之軟技能 - 實戰需求分析

本部份內容主要包括兩份重要文檔的編寫商業需求與文檔撰寫格式技巧(BRD)和市場需求分析與文檔撰寫技巧(MRD)

1、商業需求與文檔撰寫格式技巧(BRD)

1)行業分析-PEST宏觀環境的分析
2)項目背景——利用黃金圓圈學會問爲何,探尋爲何,最大的挑戰就是成功 
3)你會學到:如何談論項目進度,如何描述項目階段的起始和終止日期 
4)學習預測將來,肯定要達到的目標,估計會碰到的問題,並提出實現目標、解決問題的有效方案、方針、措施和手段的過程的方法 
5)關注企業在市場中與用戶的關係 
6)收益、成本、風險及對策

2、市場需求分析與文檔撰寫技巧(MRD)

1)如何構建用戶畫像、理解用戶行爲,真正理解用戶需求
2)理解市場需求描述、市場規模定義 
3)利用SWOT分析法來肯定企業自身的競爭優點、競爭劣勢、機會和威脅,從而將公司的戰略與公司內部資源、外部環境有機地結合起來的一種科學的分析方法 
4)市場需求的經典案例

課程5、數據挖掘/分析師之軟技能 - 實戰競品分析

一、本課程讓學員真正瞭解競品分析的用途、流程、方法,可以在正確的時間點,找到正確的競品,並用恰當的方法,作出準確的分析,最終得出的結果有利於在產
品定位的時候,肯定須要學習、避免和差別化的點。 二、另外本課程選取體現互聯網/移動互聯網行業熱點的App,以及部分優質的App;講述其戰略定位、行業標 
杆產品、自身在行業中排名、主要功能、差別化特點、盈利模式及邏輯、用戶體驗設計。使得學員經過學習,達到如下目標:第一,瞭解互聯網及移動互聯網的各個
領域;第二,瞭解互聯網各行業的熱點,提高擇業能力;第三,瞭解優秀App的定位、設計、盈利模式,這對未來數據分析師的工做和實踐很是有用;第四,培養產品感和分析產品的思路和能力;第五,經過對比,掌握同類產品定位、設計差別的原因,從而可以觸類旁通,設計出本身的、有差別化特點和競爭力的產品。

1、競品分析

1)什麼是競品
2)爲何要分析競品 
3)在什麼地方作出差別化 
4)競品分析的方法與流程 
5)實例一:大米先生餐飲App項目的競品分析(完整流程及方法展現) 
6)實例二:支付產品:支付寶 vs 微信支付(側重戰略、戰術、產品定位分析)

2、熱門各互聯網行業 APP分析

1)2016年互聯網行業投資熱點及融資分佈
2)2016年互聯網行業熱點概述(VR、文體娛樂、大數據、移動營銷、移動出行、移動社交、移動支付、在線教育、在線 
醫療、手機遊戲)
3)在線視頻APP:愛奇藝 
4)拍攝美化神器APP:美拍 
5)手機輕電臺應用APP:荔枝FM vs 懶人聽書
6)在線音樂APP:網易雲音樂 
7)在線體育APP:虎撲體育 
8)文化新聞APP:今日頭條 vs 鳳凰新聞
9)在線閱讀APP:書旗小說 
10)文藝應用APP:ONE 
11)移動出行APP:UBER 
12)移動社交APP:陌陌 
13)在線翻譯APP:網易有道詞典 
14)女生助手APP:美柚 
15)移動社交APP:探探?

課程6、數據挖掘/分析師之軟技能 - 實戰產品規劃與設計

本部分課程主要包括兩塊內容: 1. 需求分析與管理 2. 產品需求文檔撰寫格式與技巧(PRD)

1、需求分析與管理

1)需求的定義、本質和分類
2)學習需求分析包括需求的獲取、分析、規格說明、變動、驗證、管理的一系列需求工程的方法 
3)學習需求分析指需求的分析、定義過程 
4)KANO模型定義了三個層次的顧客需求:基本型需求、指望型需求和興奮型需求 
5)需求優先級的定義 
6)需求工做量估算、需求變動、需求的管理工具

2、產品需求文檔撰寫格式與技巧(PRD)

1)產品需求文檔PRD的總體結構介紹
2)產品原型的設計 
3)需求文檔質量評估標準 
4)PRD相關案例剖析

階段2、建模分析師

課程7、建模分析師之軟技能 - 數據庫技術

本部分課程主要介紹MySQL數據庫的安裝使用及經常使用數據操做

一、關係型數據庫介紹

二、MySQL的基本操做:
      1)數據庫的操做
      2)數據表的操做 
      3)備份與恢復 

三、經常使用的SQL語句: 
      1)查詢語句(SELECT)
      2)插入語句(INSERT)
      3)更新語句(UPDATE)
      4)刪除語句(DELETE)

四、高級查詢語句:
      1)聚合函數
      2)分組查詢
      3)聯合查詢
      4)鏈接查詢
      5)子查詢

五、高級應用:
1)視圖 
2)索引 

六、數據可視化管理:SQLyog

課程8、建模分析師之軟技能 - 實用型大數據挖掘算法、(Apriori算法、Tanagra工具、決策樹)

本課程名爲深刻淺出數據挖掘技術。所謂「深刻」,指得是從數據挖掘的原理與經典算法入手。其一是要了解算法,知道什麼場景應當應用什麼樣的方法;其二是學
習算法的經典思想,能夠將它應用到其餘的實際項目之中;其三是理解算法,讓數據挖掘的算法可以應用到您的項目開發之中去。所謂「淺出」,指得是將數據挖掘
算法的應用落實到實際的應用中。課程會經過三個不一樣的方面來說解算法的應用:一是微軟公司的SQL Server與Excel等工具實現的數據挖掘;二是著名開源算法的
數據挖掘,如Weka、KNIMA、Tanagra等開源工具;三是利用Java、C#語言兩種語言作演示來完成數據挖掘算法的實現。根據實際的引用場景,數據挖掘技術通
常分爲分類器、關聯分析、聚類算法等三大類別。本課程主要介紹這三大算法的經典思想以及部分著名的實現形式,並結合一些商業分析工具、開源工具或編程等方式來說解具體的應用方法。

一、數據挖掘概述與數據
二、可視化與多維數據分析(實踐課) 
三、分類器與決策樹 
四、其餘分類器 
五、決策樹的應用(實踐課) 

六、關聯分析
七、購物車數據分析(實踐課) 
八、聚類算法 
九、聚類算法C#源代碼實現(實踐課) 

課程9、建模分析師之硬技能 - SPSS Modeler數據挖掘項目實戰(高階篇)(課程九、十、11三門課任選其一)

本教程從數據挖掘生命週期、過程及管理思想開始,講解了實際項目中各大階段的重要任務及各自承上啓下的關鍵做用。並用通俗易懂的語言將挖掘技術所涉及的思
想、方法、參數與統計學基礎聯繫起來,仔細講解了包括維度、數據、分析、數據流等在內的功能、參數的實際意義和選擇、組合等應用方法。對建模技術的原理思
想及選擇方法是本課程的重點與難點。此外,本課程在結合對Modeler軟件應用的同時,更增強調建模思想,強調模型規劃設計。針對有更高要求的朋友,還應經常訓練本身對數據挖掘項目全過程的總體規劃與設計,培養本身項目全局的眼光和思惟方式。

1、數據挖掘項目管理基礎與思想

1)課程規劃
2)DM項目的生命週期與建設過程 
3)CRISP-DM詳解 
4)DM項目實際建設與管理過程 
5)DM團隊組成與能力素養 

2、感性認識SPSS Modeler

1)SPSS MODELER軟件基礎
2)MODELER節點概要 
3)MODELER數據流實例解讀 

3、必備的統計學基礎

1)簡單的統計學概念
2)經常使用的分佈函數 
3)統計學基礎的其它補充 

4、數據準備與預處理

1)數據質量與樣本管理
2)MODELER變量管理 
3)MODELER分析管理 

5、經常使用模型的數學思想與思考

1)數據挖掘知識類型
2)模型過程思想 
3)迴歸分析思想與建模解釋 
4)迴歸分析建模解釋(續) 
5)決策樹思想與建模解釋 
6)迴歸與決策樹增補 
7)神經網絡思想與建模解釋 
8)SVM思想與建模解釋 
9)聚類思想與建模解釋 
10)關聯思想與建模解釋

6、項目案例解析

1)信用風險評估
2)經營輔助決策 

課程10、建模分析師之硬技能 - Python基礎和網絡爬蟲數據分析(課程九、十、11三門課任選其一)

本課程面向從未接觸過Python的學員,從最基礎的語法開始講起,逐步進入到目前各類流行的應用。整個課程分爲基礎和實戰兩個單元。基礎部分包括Python語法
和麪向對象、函數式編程兩種編程範式,基礎部分會介紹Python語言中的各類特點數據結構,如何使用包和函數,幫助同窗快速經過語法關。在實戰部分選擇了網
絡爬蟲、數據庫開發、Web網站3種最基礎的應用類型,詳細介紹其思想原理,並經過案例講解Python中的實現方案,讓學員真正達到融會貫通、觸類旁通的效果。並應用到本身的工做環境中。

1、Python語言開發要點詳解

1)模塊的概念.主模塊和非主模塊的區別.pycharm中定義代碼模版
2)安裝pip 多個虛擬python環境
3)語法.變量.內置類型.運算符 
4)if.for.while.else 
5)數據結構.列表.元組.字典.集合 
6)函數.類.異常

2、Python數據類型

7)列表和列表解析
8)filter和map 
9)生成器表達是 
10)元組 
11)字符串 
12)字符串之中文處理 
13)字典 
14)集合

3、函數和函數式編程

15)函數參數和變長參數列表
16)函數返回值.變量做用域.和函數__doc__屬性 
17)函數的嵌套定義和閉包和裝飾器介紹 
18)裝飾器例子(日誌裝飾器和身份認證裝飾器) 
19)迭代器和生成器1 
20)生成器例子 

4、面向對象編程

21)認識經典類和新式類 
22)公有屬性和私有屬性屬性 
23)訪問屬性.屬性裝飾器.描述符 
24)描述符 
25)方法.實例方法.靜態方法.類方法 
26)特殊方法.運算符重載 
27)繼承.多重繼承.super

5、網頁爬蟲(單線程,保存到文本

28)爬蟲介紹
29)工具包介紹 
30)request使用演示 
31)xpath介紹 
32)xpath使用演示 
33)新聞爬蟲 
34)分頁欄爬蟲 
35)豆瓣爬蟲 

6、mongodb數據庫

44)mongodb介紹
45)安裝.命令行.mongovue演示 
46)python中插入記錄 
47)python中查詢記錄 
48)python中更新記錄 
49)python中刪除記錄 
50)聚合操做

7、多線程和多進程

51)概述
52)多線程編程 
53)多進程編程 
54)綜合案例-網絡爬蟲3 

8、scrapy實戰

55)scrapy介紹和安裝
56)scrapy項目框架 
57)scrapy框架和案例需求分析 
58)實戰

9、django實戰

59)django架構介紹
60)階段1.安裝.建立項目.建立應用.初始配置 
61)階段1.配置URL映射.視圖函數 
62)階段2.定義ORM並註冊到後臺管理模塊 
63)階段3.模版的繼承.表單的使用.數據的展現 
64)階段4.多應用URL配置.數據的DML操做

課程11、建模分析師之硬技能 - 零基礎數據分析與挖掘R語言實戰課程(課程九、十、11三門課任選其一)

本課程面向從未接觸過數據分析的學員,從最基礎的R語法開始講起,逐步進入到目前各行業流行的各類分析模型。整個課程分爲基礎和實戰兩個單元。 基礎部分包
括R語法和統計思惟兩個主題,R語法單元會介紹R語言中的各類特點數據結構,以及如何從外部抓去數據,如何使用包和函數,幫助同窗快速經過語法關。統計思惟
單元會指導如何用統計學的思想快速的發現數據特色或者模式,並利用R強大的繪圖能力作可視化展示。在實戰部分選擇了迴歸、聚類、數據降維、關聯規則、決策
樹這5中最基礎的數據分析模型,詳細介紹其思想原理,並經過案例講解R中的實現方案,尤爲是詳細的介紹了對各類參數和輸出結果的解讀,讓學員真正達到融會貫通、觸類旁通的效果。並應用到本身的工做環境中。

1、R語法詳解:

1)R的核心數據結構之向量、因子的區別和使用技巧
2)R的核心數據結構之矩陣、數據框、數組、列表的區別和使用技巧 
3)R的控制結構(包括分支結構和循環結構)、函數和包、以及向量化計算

2、數據組織和整理:

1)數據導入,從多種數據源導入數據
2)數據預處理之缺失值的處理 
3)數據預處理之數據轉換,數據篩選?

3、創建數據分析的統計思惟和可視化探索:

1)單變量數據特色的描述方法
2)多變量數據特色的描述方法 
3)藉助分組發現數據中的模式 
4)數據可視化創建對數據的感性認識

4、用迴歸預測將來:

1)線性迴歸的思想,代碼、結果的詳細解讀;
2)多項式迴歸、多元線性迴歸

5、聚類方法:

1)層次聚類和k-means聚類方法

6、數據降維——主成分分析和因子分析:

1)維度過多會致使哪些問題
2)用逐步迴歸法篩除無用變量 
3)用主成分分析法解決多重共線性問題 
4)用因子分析法得到有業務意義的變量

7、關聯規則:

1)用關聯規則作購物車分析

8、決策樹:

1)決策樹算法ID.三、C4.五、CART算法區別和演示
2)分類效果的評價方式

課程12、建模分析師之擴展篇(機器學習) - 零基礎實戰機器學習入門篇(Python語言、算法、Numpy庫、MatplotLib)

機器學習做爲人工智能的一部分,已經應用於不少領域,遠超過人們的想象,垃圾郵件的過濾,在線廣告的推薦系統,還有目前發展飛快的物體識別、人臉識別和語
音識別的發展,都是機器學習的應用的成果。機器學習在改善商業決策、提升生產率、檢測疾病、預測天氣等方面都有很是大的應用前景。 本課程系統的介紹了機 
器學習的目的和方法。而且針對每一種經常使用的方法進行了詳細的解析,用實例來講明具體的實現,學生能夠跟着一步步完成。在面對現實的問題的時候,能夠找到很是可靠的參照。本課程在最開始講解了Python語言的基礎知識,以保證後面的課程中能夠順利進行。更多的Python語言的知識,須要學員本身去找更多的資料進行
學習。 本課程主要講述了兩大類機器學習的方法:有監督學習和無監督學習,其中有監督學習裏面,又分爲分類和預測數值型數據。這些算法都是基礎的算法。這樣能夠下降學習的難度,容易理解機器學習思路和實現的過程。

1)機器學習的任務和方法
2)Python語言基礎 
3)Python語言基礎2 
4)分類算法介紹 
5)k-臨近算法 
6)決策樹 
7)基於機率論的分類方法:樸素貝葉斯 
8)Logistic迴歸 
9)支持向量機 
10)第利用AdaBoost元算法提升分類性能

11)利用迴歸預測數值型數據
12)樹迴歸 
13)無監督學習 
14)利用K-均值聚類算法對未標註數據分組 
15)使用Apriori算法進行關聯分析 
16)使用FP-growth算法來高效發現頻分項集 
17)利用PCA來簡化數據 
18)利用SVD簡化數據 
19)大數據與MapReduce 
20)學習總結

課程十3、建模分析師之擴展篇(機器學習) - 實戰機器學習高階篇(基於Python機器學習、項目案例實戰)

大數據時代,數據是企業值錢的財富,但海量的數據並不是都是有價值的,如何挖掘出有用的數據變成商業價值,就須要機器學習算法。大數據和機器學習勢必顛覆傳
統行業的運營方式,必將驅動公司業務的發展。目前,愈來愈多的機器學習/數據挖掘算法被應用在電商、搜索、金融、遊戲,醫療等領域中的分析、挖掘、推薦
上。 但懂機器學習算法的人才卻少之又少,物以稀爲貴,導致這個行業的工資奇高。 本課程做爲深度學習系列課程的第一階段,介紹機器學習的基本概念,原理, 
以及經常使用算法(如決策樹,支持向量機,Adaboost、EM算法等)。以Python語言爲工具對每種算法進行結合實例講解。學生學完本課程後將會理解機器學習的常
用算法原理,並會使用Python來對實際問題進行數據預處理,分類和迴歸分析。爲開發機器學習相關應用打下必要基礎,同時也爲學習深度學習進階課程打下必要基礎。

1、k最近鄰算法:

1)機器學習課程介紹
2)K最近鄰算法的思想 
3)機器學習中經常使用的距離指標解析 
4)實戰k最近鄰算法

2、樸素貝葉斯分類算法

5)機率論的基本知識(基本概念、加法公式、乘法公式)
6)經過例子深刻掌握機率的基本公式 
7)全機率公式和貝葉斯定理 
8)實戰貝葉斯分類算法,智能手環推薦

3、聚類算法:

9)聚類算法概述
10)Kmeans聚類 
11)Kmeans實戰,圖片按照色彩聚類 

4、決策樹算法:

12)決策樹介紹
13)決策樹的構造過程和各類算法 
14)決策樹中關鍵指標詳解 
15)實戰決策樹

5、線性迴歸和梯度降低算法:

16)線性迴歸的相關概念(相關、獨立和協方差)
17)線性迴歸和最小二乘法 
18)梯度降低算法 
19)梯度的推導過程 
20)嶺迴歸、lasso迴歸和彈性網

6、邏輯迴歸和極大似然估計:

21)廣義線性迴歸和邏輯迴歸
22)極大似然估計的思想 
23)邏輯迴歸中的梯度推導 
24)邏輯迴歸代碼實戰

7、支持向量機:

25)支持向量機原理介紹
26)線性可分的支持向量機 
27)近似線性可分、非線性可分、核函數 
28)座標上升法、SMO算法、實戰支持向量機

8、EM算法和GMM:

29)EM算法思想
30)EM算法的推導 
31)實戰EM算法,GMM

9、隨機森林和Adaboost:

32)隨機森林
33)Adaboost思想精髓 
34)Adaboost算法流程介紹 
35)實戰Adaboost算法

10、機器學習思想精華和實戰經驗分享:

36)機器學習解決問題思想框架
37)理解方差和誤差、損失函數和過擬合 
38)L一、L2正則化和常見的5種損失函數 
39)如何選擇模型和選擇參數,交叉驗證和ROC曲線 
40)自適應學習率和二分法精確搜索 
41)自適應學習率和基於阿米霍準則的模糊搜索 
42)經驗分享

階段3、大數據分析師(贈送)

課程十4、大數據挖掘/分析師之硬技能 - Java語言基礎

本課程講解了java語法基礎、類和對象、java中的字符串、java實用類與集合、泛型、繼承和多態、接口與抽象類異常處理等等。

一、Java語法基礎

二、類和對象

三、字符串

四、Java實用類

五、集合與泛型

六、面向對象三大特性

七、接口與抽象類

八、Java異常

課程十5、大數據挖掘/分析師之硬技能 - 大數據必備的數據結構與算法

這門課程是針對大數據工程師和雲計算工程師的基礎課程,同時也是全部計算機專業人士必須掌握的一門課程。若是不掌握數據結構和算法,你將難以掌握高效、專業的數據處理手段,更難以從容應對複雜的大數據處理場景。

1.數據結構和算法概述

2.數組、鏈表、隊列、棧等線性表

3.二叉樹、BST、AVL樹及二叉樹的遞歸與非遞歸遍歷

4.B+樹

5.跳錶

6.圖、圖的存儲、圖的遍歷

7.有向圖、無向圖、懶惰與積極的普利姆算法、克魯斯卡爾算法及MST、單源最短路徑問題及Dijkstra算法

8.並查集與索引式優先隊列、二叉堆

9.遺傳算法初步與TSP問題

10.內部排序(直接插入、選擇、希爾、堆排序、快排、歸併等)算法與實踐中的優化

11.外部排序與優化(文件編碼、數據編碼、I/O方式與JVM特色、多線程、多路歸併等)

課程十6、大數據挖掘/分析師之硬技能 - Linux必知必會

本部分是基礎課程,幫你們進入大數據領域打好Linux基礎,以便更好地學習Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等衆多課程。由於企業中的項目基本上都是使用Linux環境下搭建或部署的。

1.Linux系統概述

2.系統安裝及相關配置

3.Linux網絡基礎

4.OpenSSH實現網絡安全鏈接

5.vi文本編輯器

6.用戶和用戶組管理

7.磁盤管理

8.Linux文件和目錄管理

9.Linux終端經常使用命令

10.linux系統監測與維護

課程十7、大數據挖掘/分析師之硬技能 - Hadoop大數據開發技術光速入門

本課程從基礎的環境搭建到更深刻的知識學習都會有一個比較好的講解。幫助學員快速上手hadoop生態圈的大數據處理框架的使用,使用hadoop生態圈進行一些
模塊化、項目功能化的開發,主要包括安裝部署hadoop、hive、hbase、hue、oozie、flume等生態圈相關軟件環境的搭建,而且在已搭建好的環境上進行相關知
識點的講解和功能的開發。項目/模塊主要涉及到使用MR開發相關實際業務功能,包括最短路徑的計算、社交好友推薦算法實現、分佈式鎖的實現等,這些模塊可
以在實際的生成環境中使用到,能夠很簡單的將這些模塊的代碼直接集成到相關實際生產環境代碼中。

  1、hadoop:

1)Hadoop起源、體系結構以及生態圈介紹
2)Hadoop安裝 
3)Windows平臺下Eclipse環境搭建 
4)HDFS體系結構 
5)HDFS SHELL API介紹
6)HDFS Java API介紹
7)Hadoop 2.x HDFS新特性
8)YARN體系結構 
9)MR編程模型介紹 
10)Map-Reduce編程實例:WordCount 
11)MR數據類型講解 
12)MR輸入格式講解 
13)MR輸出格式講解 
14)案例:自定義輸入、輸出格式使用 
15)MR Shuffle組件講解
16)案例:二次排序 
17)組合MR任務介紹 
18)MR任務多數據源鏈接介紹 
19)案例:倒排索引

  2、zookeeper:

20)Zookeeper起源、體系結構介紹
21)Zookeeper安裝 
22)Zookeeper Shell命令
23)Zookeeper Java API
24)Zookeeper案例:分佈式環境中實現共享鎖

3、hbase: 

25)HBase起源、體系結構以及數據模型介紹
26)HBase安裝 
27)HBase Shell命令
28)HBase Java API
29)HBase協處理器介紹 
30)HBase和MapReduce整合 
31)HBase案例:二級索引的建立

  4、hive:

32)Hive起源、體系結構介紹
33)Hive安裝 
34)Hive Shell命令上
35)Hive Shell命令下
36)Hive函數

  5、hue:

37)Hue簡介

  6、Oozie:

38)Oozie簡介
39)Oozie安裝 
40)Oozie案例 
41)Oozie Java客戶端
42)Oozie Hue整合

7、Flume: 

43)Flume介紹以及安裝
44)Flume案例介紹上 
45)Flume案例介紹下 
46)Flume自定義Source 
47)Flume自定義Interceptor

8、Sqoop: 

48)Sqoop介紹與安裝
49)Sqoop案例介紹上 
50)Sqoop案例介紹下

9、Kafka: 

51)Kafka介紹與安裝
52)Kafka案例

10、MR擴展: 

53)MapReduce案例:最短路徑算法
54)MapReduce案例:PageRank算法 
55)MapReduce案例:社交好友推薦算法

課程十8、數據分析專家之硬技能 - 基於Hadoop技術實現的離線電商分析平臺

離線數據分析平臺是一種利用hadoop集羣開發工具的一種方式,主要做用是幫助公司對網站的應用有一個比較好的瞭解。尤爲是在電商、旅遊、銀行、證券、遊戲
等領域有很是普遍,由於這些領域對數據和用戶的特性把握要求比較高,因此對於離線數據的分析就有比較高的要求了。 本課程經過一個離線電商的項目實戰全面 
對Hadoop技術作了一個演練。項目主要涉及到用戶行爲數據的收集、用戶數據的etl操做、用戶數據的分析以及分析數據展現等項目模塊,最終展現了一個基本的
離線數據分析平臺的所有實現。

1、項目需求介紹:

1)需求分析

2、用戶行爲數據收集模塊實現講解:

3)JavaSDK數據收集引擎編寫
4)JSSDK數據收集引擎編寫

3、數據分析模塊實現講解:

5)用戶數據etl操做一
6)用戶數據etl操做二 
7)新增用戶和總用戶分析 
8)活躍用戶分析 
9)活躍會員分析 
10)新增會員和總會員分析 
11)會話分析 
12)Hourly分析 
13)瀏覽器PV分析 
14)公用代碼提取 
15)地域信息分析 
16)外鏈信息分析 
17)MapReducer代碼優化 
18)DimensionConverter相關服務設計 
19)用戶瀏覽深度分析 
20)事件分析 
21)訂單分析 
22)MR和Hive任務Oozie部署

4、數據展現模塊講解:

23)DataApi後臺框架搭建
24)用戶基本信息數據展現 
25)瀏覽器基本信息數據展現 
26)地域信息數據展現 
27)用戶瀏覽深度數據展現 
28)外鏈數據展現 
29)事件數據展現 
30)訂單數據展現以及項目總結

課程十9、大數據挖掘/分析師之硬技能 - 基於金融行業的大數據挖掘/分析實戰(Python語言)

本課程介紹使用Python進行數據分析和金融應用開發的基礎知識。課程從介紹簡單的金融應用開始,帶領學員回顧Python的基礎知識,並逐步學習如何將Python
應用到金融分析編程中。課程覆蓋了Python的基本數據結構、輸入輸出、效率分析、數學庫、隨機分析庫、統計分析庫等。接着課程以專題的形式介紹了Python與
Excel的結合,學習如何使用Python的相關庫生成Excel可調用的函數;Python與Hadoop和MongoDB結合進行大數據分析的基礎知識。最後課程介紹了Python的
面向對象編程並介紹了兩個案例:使用Python實現金融衍生品分析庫以及使用Python實現事件驅動的量化投資系統,使學員在實戰的環境下理解Python在金融
應用開發中的具體應用方式,訓練學員獨立開發Python模塊的能力。

1)Python與金融應用概述
2)Python的基本數據類型與數據結構 
3)Python數據可視化 
4)金融時間序列分析 
5)輸入輸出操做

6)提高Python效率
7)數學工具 
8)隨機分析 
9)統計分析 
10)數值分析技術

11)使用Python操做Excel
12)Python面向對象編程與圖形用戶界面 
13)金融中的大數據技術概述 
14)案例1:使用Python構建期權分析系統 
15)案例2:使用Python構建簡單的算法交易系統

階段4、數據分析專家(贈送)

課程二10、數據分析專家之軟技能 - 卓越的項目管理應用與實踐

經過本課程的學習,使學員可以正確、熟練地選擇項目生命週期中,各階段各場景中的技術、工具、方法,並根據項目實際狀況靈活應用在項目管理中;掌握項目工具的設計思想,能根據項目實際狀況設計和修改工具;提高學員對項目管理的全局眼光與思惟方式。

  第一篇 項目管理基礎

1.基礎與導讀

2.戰略管理

3.項目、羣、組合與資源

4.項目選擇方法

  第二篇 體系解讀與應用實踐

5.項目管理過程組

6.十大知識領域

7.項目策劃、定義方法與實踐

8.項目資源預估方法及實踐

9.項目網絡方法及實踐

10.風險管理方法及實踐

11.合同管理方法及實踐

12.質量管理方法及實踐

13.全局方法及實踐

課程二11、數據分析專家之軟技能 - 大道至簡之軟件開發從設計到編碼全程實錄

本課程從無到有,搭建一個簡易版的電商平臺,並從不一樣角度分析設計此項目各個主要模塊和功能點,將會應用到除迭器模式之外的全部GoF設計模式,旨在演示設計模式在項目中的實際應用,以及如何針對不一樣狀況進行功能設計,但願能夠幫助你們敲開設計之門。

  1、訂單模塊:

1)多模塊的業務狀態跟蹤處理的方式
2)如何處理多模塊循環引用、交叉引用的問題

  2、倉儲模塊 :

1)如何靈活的預留功能擴展。

3、成本覈算管理: 

1)如何動態的組裝所需成本項。

  4、編號生成器:

1)生成不重複的流水號,並支持各業務生成單獨的流水號。
2)生成不一樣格式要求,不一樣生成算法的流水號 
3)對不一樣的文號生成進行緩存 
4)實現業務工做量監控,好比新增業務量達到閥值,暫停收取新業務等

  5、消息模塊:

1)如何設計消息交互模塊
2)如何處理交互報文

  6、權限模塊:

1)如何實現API和SPI分離設計
2)如何設計公共級別的接口,並提供足夠的靈活性進行擴展

課程二12、數據分析專家之軟技能 - 系統架構設計的原理、核心技術與案例分析

本課程首先圍繞普通開發人員如何向架構師轉型這一課題,從架構師的角色以及轉型過程當中會遇到的困難及其解決方法切入展開討論,總領整個課程。課程主體部分
從軟件架構體系結構、架構設計、技術體系等角度出發,詳細介紹了架構師區別於通常開發人員所須要掌握的架構設計方法論與相關實踐,包括架構風格與模式、領
域驅動設計、類與框架設計、分佈式系統架構設計、微服務架構設計、各類主流的技術體系與實踐等內容。而後針對軟件架構系統工程、業務模型設計、敏捷方法與
實踐、產品交付模型與質量控制等架構師所必須掌握的系統工程和過程管理知識以及應用進行詳細闡述,確保其站在架構師的高度進行系統設計和開發完整生命週期
的全局管理。做爲技術團隊的領導者,架構師一樣須要具有相應的綜合能力,課程的最後對架構師所需的各項軟能力作全面介紹。

1、程序員向架構師轉型:

1)總體課程概述
2)架構設計基本概念和架構師角色剖析 
3)軟件架構過程以及架構師的視點和視角 
4)程序員如何向架構師成功轉型

2、軟件架構體系結構:

1)軟件架構體系結構概述
2)架構風格之分發-訂閱風格、管道-過濾器風格、Map-Reduce風格等 
3)架構模式之基本模式、對象- 關係行爲模式、Web表現模式、分佈模式等
4)架構模型之概念模型、領域模型、設計和代碼模型等

3、架構設計:

1)領域驅動設計
2)類與框架設計 
3)微服務架構設計

課程二十3、數據分析專家之硬技能 - Spark基礎--快學Scala(將來大數據處理的主流語言)

Scala是一種多範式的編程語言,其設計的初衷是要集成面向對象編程和函數式編程的各類特性。Scala運行於Java平臺(Java虛擬機),併兼容現有的Java程序
。它也能運行於CLDC配置的Java ME中。目前還有另外一.NET平臺的實現,不過該版本更新有些滯後。Scala的編譯模型(獨立編譯,動態類加載)與Java和C#
同樣,因此Scala代碼能夠調用Java類庫(對於.NET實現則可調用.NET類庫)。Scala包括編譯器和類庫,以及BSD許可證發佈。 學習Scala編程語言,爲後續學習Spark奠基基礎。

1)Spark的前世此生
2)課程介紹、特點與價值 
3)Scala編程詳解:基礎語法 
4)Scala編程詳解:條件控制與循環 
5)Scala編程詳解:函數入門 
6)Scala編程詳解:函數入門之默認參數和帶名參數 
7)Scala編程詳解:函數入門之變長參數 
8)Scala編程詳解:函數入門之過程、lazy值和異常 
9)Scala編程詳解:數組操做之Array、ArrayBuffer以及遍歷數組 
10)Scala編程詳解:數組操做之數組轉換

11)Scala編程詳解:Map與Tuple
12)Scala編程詳解:面向對象編程之類 
13)Scala編程詳解:面向對象編程之對象 
14)Scala編程詳解:面向對象編程之繼承 
15)Scala編程詳解:面向對象編程之Trait 
16)Scala編程詳解:函數式編程 
17)Scala編程詳解:函數式編程之集合操做 
18)Scala編程詳解:模式匹配 
19)Scala編程詳解:類型參數 
20)Scala編程詳解:隱式轉換與隱式參數 
21)Scala編程詳解:Actor入門

課程二十4、數據分析專家之硬技能 - 大數據Spark從入門到精通

本課程主要講解目前大數據領域最熱門、最火爆、最有前景的技術——Spark。在本課程中,會從淺入深,基於大量案例實戰,深度剖析和講解Spark,而且會包含
徹底從企業真實複雜業務需求中抽取出的案例實戰。課程會涵蓋Scala編程詳解、Spark核心編程、Spark SQL和Spark Streaming、Spark內核以及源碼剖析、性能
調優、企業級案例實戰等部分。徹底從零起步,讓學員能夠一站式精通Spark企業級大數據開發,提高本身的職場競爭力,實現更好的升職或者跳槽,或者從j2ee等
傳統軟件開發工程師轉型爲Spark大數據開發工程師,或是對於正在從事hadoop大數據開發的朋友能夠拓寬本身的技術能力棧,提高本身的價值。

一、Spark核心編程進階
二、Spark內核原理進階 
三、Spark SQL實戰開發
四、Spark Streaming實戰開發
五、Spark運維管理進階

課程二十5、數據分析專家之 BI 擴展技能 - 高端微軟BI商業智能(SSIS數據倉庫、SSAS MDX多維數數據集、Ssrs實戰)(贈送)

微軟BI(BI,BusinessInteligence),微軟商業智能。微軟BI是一套完善、徹底集成的 BI 技術,可以幫助下降組織和分發信息的複雜度,同時得到競爭優點、總體更
明智的決策和更好的成果。Microsoft BI 經過三個層面或工做負載交付:數據倉庫、報表與分析以及績效管理。全部這一切都旨在提供整合的、全面的數據源和工
具,以幫助改進決策制訂。在咱們看來,Microsoft BI 的承諾就是:幫助組織內全部層面的決策者對其決策所支持的企業目標與計劃充滿信心。從技術層面上來說,
Microsoft BI由三大部分以及其餘的協同平臺組成, 它們分別是SSIS, SSAS, SSRS以及與office, sharepoint產品. 一般咱們所說的Microsoft BI, 指的主要是
SSIS, SSAS, SSRS三大部分. 經過這幾個部分的學習, 咱們就能創建起完善強大的BI體系, 這也是咱們課程的最主要講解的知識點。

1)商業智能的概念及初步體驗
2)SSIS總體及經常使用對象概述 
3)SSIS控件 
4)SSIS表達式 
5)SSIS實戰 
6)SSAS-前言及MDX基礎 
7)SSAS-MDX基本查詢 
8)SSAS-MDX基礎函數 
9)SSAS-MDX導航函數 
10)SSAS-經典MDX語句

11)SSAS-開發多維數據庫
12)SSAS-度量值詳解 
13)SSAS-KPI, 與多維數據集的交互和其餘
14)SSAS-建立ADM_BF_SSAS以及小結 
15)WEB報表-項目回顧以及搭建web框架 
16)WEB報表-權限系統 
17)WEB報表-使用ADOMD.NET 
18)WEB報表-功能分析 
19)SRS-前言 
20)SSRS-基礎報表

課程二十6、數據分析專家之 BI 擴展技能 - 中小型企業商業智能平臺的開發和實現(數據倉庫、BI系統、真實項目)(贈送)

本課程以公共衛生領域高血壓的管理爲實際應用場景,爲高血壓管理系統創建數據倉庫,進行數據分析。本課程一共分爲四個章節,76講。第一章主要介紹了商業
智能系統的發展,從商業智能的學科範圍、演化史、應用案例到天然演化式的體系結構,以及面臨的問題,再講到數據倉庫以及開發方法。第二章主要解析了數據倉
庫的一些主要術語,例如,分區、粒度、維度、度量值、多維數據模型以及DW2.0。第三章講述瞭如何設計數據倉庫,引入了元數據的概念。第四章是整個課
程中課時最多的部分,花了比較多的時間從頭至尾搭建了一個BI系統,最終是以Web Service的方式供第三方調用。

1、理論講解部分:

1.商業智能系統的發展
2.數據倉庫的主要術語解析 
3.如何設計數據倉庫

2、項目實戰部分:

1. 操做性數據庫的準備和分析
2.建立數據庫、時間維度表 
3.編寫存儲過程爲時間維度表添加數據 
4.創建其餘維表 
5.分析操做型數據庫中的數據狀況、肯定分區和粒度、創建事實表 
6.增長Gender維度,GZYS維度,Age維度並添加數據 
7.Extract, Transform, Load-Sp框架搭建及編寫
8.ODS表 
9.修改調試ETL的存儲過程 
10.加入校驗機制並完善ETL

階段5、機器學習/深度學習研究員

課程二十7、機器學習/深度學習研究員之硬技能-貝葉斯方法與機器學習及實踐

本課程先基於PyMC 語言以及一系列經常使用的Python 數據分析框架,如NumPy、 SciPy 和Matplotlib,經過幾率編程的方式,講解了貝葉斯推斷的原理和實現方法。 該方法經常能夠在避免引入大量數學分析的前提下,有效地解決問題。課程中使用的 案例每每是工做中遇到的實際問題,有趣而且實用。經過對本課程的學習,學員能夠 對貝葉斯思惟、機率編程有較爲深刻的瞭解,爲接下來的機器學習打下基礎;接下來 以Python 編程語言爲基礎,在不涉及大量數學模型與複雜編程知識的前提下,講師 逐步帶領學員熟悉而且掌握當下最流行的機器學習、數據挖掘與天然語言處理工具, 如Scikit、Google Tensorflow 等;同時會着重講解兩類機器學習的核心的「算法族」, 即懲罰線性迴歸和集成方法,並經過代碼實例來展現所討論的算法的使用原則等。

 

1.使用計算機執行貝葉斯推斷

2.瞭解PyMC

3.MCMC 的黑盒子

4.大數定律

5.損失函數

6.主觀與客觀先驗

7.貝葉斯AB 測試

8.關於預測的兩類核心算法

 

九、「岩石vs 水雷」數據集的特性

10.基於因素變量的實數值預測

11.預測模型的構建:平衡性能、複雜性以及大數據

12.懲罰線性迴歸模型

13.使用懲罰線性方法來構建預測模型

14.集成方法

15.用Python 構建集成模型

課程二十8、機器學習/深度學習研究員之硬技能- 深度學習與TensorFlow 實戰

本課程但願用簡單易懂的語言帶領你們探索TensorFlow(基於1.0 版本API)。 課程中講師主講TensorFlow 的基礎原理,TF 和其餘框架的異同。並用具體的代碼完 整地實現了各類類型的深度神經網絡:AutoEncoder、MLP、CNN(AlexNet, VGGNet,Inception Net,ResNet)、Word2Vec、RNN(LSTM,Bi-RNN)、 Deep Reinforcement Learning(Policy Network、Value Network)。此外,還講解 了TensorBoard、多GPU 並行、分佈式並行、TF.Learn 和其餘TF.Contrib 組件。本課程能幫讀者快速入門TensorFlow 和深度學習,在工業界或者研究中快速地將想法 落地爲可實踐的模型。

 

1.TensorFlow 基礎

2.TensorFlow 和其餘深度學習框架的對比

3.TensorFlow 第一步

4.TensorFlow 實現自編碼器及多層感知機

5.TensorFlow 實現卷積神經網絡

 

 

6.TensorFlow 實現經典卷積神經網絡

7.TensorFlow 實現循環神經網絡及Word2Vec

8.TensorFlow 實現深度強化學習

9.TensorBoard、多GPU 並行及分佈式並行

課程二十9、機器學習/深度學習研究員之硬技能- 推薦系統

本課程重點講解開發推薦系統的方法,尤爲是許多經典算法,重點探討如何衡量 推薦系統的有效性。課程內容分爲基本概念和進展兩部分:前者涉及協同推薦、基於 內容的推薦、基於知識的推薦、混合推薦方法,推薦系統的解釋、評估推薦系統和實 例分析;後者包括針對推薦系統的攻擊、在線消費決策、推薦系統和下一代互聯網以 及普適環境中的推薦。課程中包含大量的圖、表和示例,有助於學員理解和把握相關 知識等。

1.協同過濾推薦

2.基於內容的推薦

3.基於知識的推薦

4.混合推薦方法

5.推薦系統的解釋

6.評估推薦系統

7.案例研究

課程三10、機器學習/深度學習研究員之硬技能-人工智能(選修)

本課程主要講解人工智能的基本原理、實現技術及其應用,國內外人工智能研究 領域的進展和發展方向。內容主要分爲4 個部分: 第1 部分是搜索與問題求解,系 統地敘述了人工智能中各類搜索方法求解的原理和方法,內容包括狀態空間和傳統的 圖搜索算法、和聲算法、禁忌搜索算法、遺傳算法、免疫算法、粒子羣算法、蟻羣算 法和Agent 技術等;第2 部分爲知識與推理,討論各類知識表示和處理技術、各類 典型的推理技術,還包括非經典邏輯推理技術和非協調邏輯推理技術;第3 部分爲學 習與發現,討論傳統的機器學習算法、神經網絡學習算法、數據挖掘和知識發現技術; 第4 部分爲領域應用,分別討論專家系統開發技術和天然語言處理原理和方法。通 過對這些內容的講解可以使學員對人工智能的基本概念和人工智能系統的構造方法 有一個比較清楚的認識,對人工智能研究領域裏的成果有所瞭解。

1.AI 的產生及主要學派

2.人工智能、專家系統和知識工程

3.實現搜索過程的三大要素

4.搜索的基本策略

5.圖搜索策略

6.博弈與搜索

7.演化搜索算法

8.羣集智能算法

9.記憶型搜索算法

10.基於Agent 的搜索

11.知識表示與處理方法

12.謂詞邏輯的歸結原理及其應用

13.非經典邏輯的推理

14.次協調邏輯推理

相關文章
相關標籤/搜索