頂尖大數據挖掘實戰平臺（TipDM-H8）產品白皮書

時間 2019-11-24

標籤頂尖數據挖掘實戰平臺 tipdm h8 產品白皮書简体版

原文原文鏈接

頂尖大數據挖掘實戰平臺ios

(TipDM-H8)算法

產品說明書數據庫

廣州泰迪智能科技有限公司版權全部編程

地址：廣州市經濟技術開發區科學城232號緩存

網址： http://www.tipdm.com服務器

郵箱： services@tipdm.com網絡

熱線： 40068-40020數據結構

企業QQ：40068-40020架構

郵編： 510663機器學習

電話：（020）82039399

1 引言............................................................................................................... 3

1.1 背景............................................................................................................ 3

1.2 目標............................................................................................................ 3

1.3 聯繫咱們..................................................................................................... 4

2 產品介紹........................................................................................................ 5

2.1 大數據挖掘實戰平臺................................................................................... 5

2.2 適用對象..................................................................................................... 5

3 產品構成........................................................................................................ 7

3.1 數據挖掘教學軟件....................................................................................... 7

3.1.1 軟件功能....................................................................................... 7

3.1.2 軟件界面...................................................................................... 13

3.1.3 運行環境...................................................................................... 14

3.2 數據挖掘多媒體軟件................................................................................. 14

3.3 數據挖掘教學PPT..................................................................................... 17

3.4 數據挖掘實訓教程..................................................................................... 18

3.5 數據挖掘輔助教學案例庫.......................................................................... 20

3.6 大數據分析平臺........................................................................................ 20

3.7 大數據實戰培訓........................................................................................ 21

3.7.1 環境部署...................................................................................... 21

3.7.2 虛擬機資源.................................................................................. 21

3.7.3 課程安排...................................................................................... 22

3.8 雲服務器（可選）..................................................................................... 23

4 硬件配置及軟件部署..................................................................................... 25

4.1 硬件清單................................................................................................... 25

4.2 數據挖掘平臺配置..................................................................................... 25

4.3 大數據實戰機器配置................................................................................. 26

1 引言

1.1 背景

隨着雲時代的來臨，大數據技術將具備愈來愈重要的戰略意義。大數據已經滲透到每個行業和業務職能領域，逐漸成爲重要的生產要素，人們對於海量數據的運用將預示着新一輪生產率增加和消費者盈餘浪潮的到來。大數據分析技術將幫助企業用戶在合理時間內攫取、管理、處理、整理海量數據，爲企業經營決策提供積極的幫助。大數據分析做爲數據存儲和挖掘分析的前沿技術，普遍應用於物聯網、雲計算、移動互聯網等戰略性新興產業。雖然大數據目前在國內還處於初級階段，可是其商業價值已經顯現出來，特別是有實踐經驗的大數據分析人才更是各企業爭奪的熱門。爲了知足日益增加的大數據分析人才需求，不少大學開始嘗試開設不一樣程度的大數據分析課程。「大數據分析」做爲大數據時代的核心技術，必將成爲許多高校計算機、應用數學、軟件工程等專業的重要課程之一。爲增強大數據分析創新發展頂層設計和科學佈局，推進學校相關教師和學生更好理解和掌握大數據分析的關鍵技術原理和將來發展方向，特推出大數據挖掘實戰平臺，承擔學校「大數據」人才的培養，同時知足教師和研究生的大數據分析需求。具體表如今:

大數據挖掘實戰平臺建設是培養雲計算與大數據時代新型數據分析人才的須要。
大數據挖掘實戰平臺建設能有力促進及推進學校及各學院科研水平，爲大數據的分析及挖掘提供基礎平臺。
該工程與實戰中心的創建能使學校走在全省高校，乃至全國高校前列，能爲其他高校創建同類大數據挖掘實戰平臺提供示範經驗，充分帶動學校教學、科研的改革創新與發展。
該工程與實戰中心的建設能充分推進校企合做，真正實現產學研一體化，工程中心利用企業提供的大數據資源，分析與挖掘出有戰略指導意義的結論，爲企業領導者作決策提供導向性做用。爲數據爆炸時代高校學生走出去提供更大機會。
目前我國正處於綜合改革的攻堅期，大數據挖掘實戰平臺的建設能承接部分轉型跨越的任務，一方面能爲大數據產業落地提供理論與技術支撐，另外一方面也能使學校走到信息技術革命的前列。

1.2 目標

大數據挖掘實戰平臺建成後，將承擔學校的科研和教學任務，爲師生提供便利、實用和符合信息技術發展方向的大數據分析平臺，同時該工程與實戰中心也將知足本科生和研究生的教學需求，爲培養各行業須要的大數據分析人才提供實訓平臺。大數據挖掘實戰平臺建設按照自頂向下的科學設計原則和分步實施建設的風控指導原則，將分爲兩個建設階段。

實戰平臺建設中，將創建大數據科研平臺。將雲存儲資源、服務器資源和網絡資源整合，而後經過VMware 搭建私有云平臺，在私有云平臺上搭建統一的數據挖掘平臺和基於Hadoop的大數據分析平臺，統一的數據挖掘平臺供學校有數據挖掘與分析需求的教師訪問（無需編程經驗），以知足其數據處理需求。基於Hadoop 的大數據分析平臺供教師進行大數據處理與大數據算法分析使用（需有編程經驗）。

在前面大數據科研平臺建設的基礎上，經過VMware 私有云搭建大數據教學平臺。經過該大數據教學平臺的建設能讓學生既掌握必要的理論基礎，又能將大數據分析理論和方法用於解決實際問題。該大數據教學平臺也能解決教學過程當中實驗環節很是薄弱，形成學生缺乏數據挖掘實踐經驗、缺少實踐應用能力等問題。

大數據挖掘實戰平臺的建設採用四層架構，其總體架構以下圖所示。

大數據挖掘實戰平臺底層數據處理平臺採用雲計算技術實現，基於雲計算的基礎設施層能充分保障資源的有效利用率和資源的動態伸縮性，雲基礎設施層上搭建了基於VMware 的虛擬化層，該虛擬化層能充分保證業務的連續性和平臺運行的可靠性。創建在虛擬化層上的統一數據挖掘平臺TipDM 能知足全校有數據挖掘需求的教師利用圖形化的界面進行數據分析，而基於Hadoop 的大數據實訓平臺（TipDM-Hadoop）能爲大數據算法分析和大數據處理提供基礎平臺。位於架構最上層的大數據教學平臺爲培養大數據時代的數據科學家提供實訓平臺。

大數據挖掘實戰平臺建成後將極大地知足大數據時代高校師生數據分析的需求，也將爲數據科學家的培養提供便利的基礎設施環境，同時該工程與實戰中心也將承接我省綜改轉型攻堅的部分重任。

1.3 聯繫咱們

感謝您選擇廣州泰迪科技公司的數據挖掘產品，在系統的使用過程當中若是遇到問題，請經過以下的方式與咱們聯繫，咱們將爲用戶提供周到滿意的服務。

主頁：http://www.tipdm.com

電話：020-82039399

傳真：020-28871586

熱線：40068-40020

地址：廣州經濟技術開發區科學城科珠路232號

郵編：510663

郵箱：services@tipdm.com

2 產品介紹

2.1 大數據挖掘實戰平臺

隨着當前信息技術發展，雲計算模式已成爲潮流，網絡與基礎設施的虛擬化等技在機構和企業獲得普遍應用。社會就業單位對掌握雲計算相關知識的網絡操做人員存在迫切需求。這都要求相關專業教師須要掌握雲計算的相關網絡維護知識，開展針對雲計算教學教研工做，着力於解決新興技術在教學中的不足；尤爲數學和計算機相關專業的學生，須要掌握基於虛擬化的雲計算技術，以更好地尋找合適工做、適應將來崗位。

基於Hadoop實戰項目，在大數據實戰環境中，經過動手實操，讓學員在短期內掌握使用HortonWorkspace Data Platform（HDP）平臺開發Hadoop程序，以完成高效的大數據存儲、清洗和分析。

大數據挖掘與實戰中心主要包括兩大部分：

一、數據挖掘輔助教學套件（TipDM-T8）

² 數據挖掘建模軟件

² 數據挖掘多媒體軟件

² 數據挖掘教學PPT

² 數據挖掘教學案例庫

² 數據挖掘實訓教程

二、大數據挖掘輔助教學平臺

² 大數據挖掘基礎平臺（TipDM-Hadoop）

² Vmware HDP虛擬機大數據實戰培訓教程

2.2 適用對象

² 有大數據挖掘相關課程教學的高校、研究所和培訓機構

² 用大數據挖掘進行科研的高校、研究所

特別說明：Hortonworks做爲全球領先的大數據平臺開發、諮詢、培訓和支持服務提供商，是下一代大數據平臺Hadoop 2.0 的領導者。

Hortonworks的全球技術合做夥伴達140多個，好比微軟、Teradata和Rackspace等都創建了各自的基於Hortonworks數據平臺的生產線。

Hortonworks Hadoop培訓認證課程表明瞭行業最高水平，也是業界公認的Hadoop權威認證。

目前我公司已與Hortonworks公司在培訓、諮詢和系統集成方面展開了深度合做。

建議：若是採用泰迪科技公司提供的大數據挖掘實戰平臺建設方案，泰迪公司將派出講師對實戰中心技術人員進行專業培訓（或直接派講師進行授課），課程結束後，學員可直接參加認證考試！

3 產品構成

3.1.

3.1 數據挖掘教學軟件

數據挖掘輔助教學軟件採用廣州泰迪智能科技有限公司花費數年時間自主研發的一個數據挖掘平臺——頂尖數據挖掘平臺（TipDM）。該軟件使用JAVA語言開發，能從各類數據源獲取數據，創建各類不一樣的數據挖掘模型。系統支持數據挖掘流程所需的主要過程，並提供開放的應用接口和經常使用算法，可以知足各類複雜的應用需求。2010年初「頂尖數據挖掘平臺（TipDM）」經過了由廣州賽寶軟件評測中心的功能和性能測試。現產品在廣東省電信規劃設計院、珠江水產研究所、華南師範大學、廣東中醫藥大學、武漢理工大學、廣東工業大學、韓山師範學院、番禺職業技術學院、交通運輸部公路科學研究院等單位成功試用，受到用戶的讚許與確定。

頂尖數據挖掘平臺（TipDM）應用很是普遍，可以模擬如下衆多方向的應用：

學生能夠根據數據挖掘課程須要在（TipDM）軟件平臺上模擬各類數據挖掘實際應用，快速提升數據挖掘實踐能力，增長數據挖掘應用經驗。

頂尖數據挖掘平臺（TipDM）包含了目前主流的各種算法，方便學員寓教於學，快速理解和學習算法，並能夠在平臺上進行算法對比，下面是頂尖數據挖掘平臺（TipDM）主要算法功能：

3.1.1 軟件功能

1. 數據探索及預處理

數據探索是對導入系統中的數據進行初步研究，以便更好地理解它的特殊性質，有助於選擇合適的數據預處理和數據分析技術。

模型預測的質量不會超過抽取樣本的質量。數據探索和預處理的目的是爲了保證樣本數據的質量，從而爲保證預測質量打下基礎。

算法名稱	算法描述
相關性分析	相關性分析是考察兩個變量之間相互關係的方向和程度的一種統計分析方法。更精確地說，當一個變量發生變化時，另外一個變量如何變化，此時就須要經過計算相關係數來作深刻的定量考察。固然，還有其餘類型的相關係數用於測量兩個以上變量之間的關係，如多元迴歸等。
主成分分析	主成分析分析（PCA）是指用幾個較少的綜合指標來代替原來較多的指標，而這些較少的綜合指標既能儘量多地反映原來較多指標的有用信息，且相互之間又是無關的。
週期性分析	分析數據變化過程當中，某些特徵重複出現，連續的兩次出現的客觀規律。在時序預測時，常常要對樣本數據進行週期性分析，以更好地理解樣本數據變化的特色，爲時序預測分析提供指導依據。
缺失值處理	樣本數據中常常存在一些缺失值，在進行預測建模前，須要對缺失值按照某些規則進行處理。處理方法主要有：1）刪除；2）數據補齊（人工填寫、平均值填充、特殊值填充、熱卡填充、 K最近距離鄰法、迴歸、指望值最大化方法等）。
壞數據處理	若是抽取數據中存在壞數據（髒數據），則須要對壞數據進行預處理。一般的作法是採用絕對均值法或萊因達法等對樣本中的壞點數據進行剔除處理。
屬性選擇	由給定的屬性構造或添加新的屬性，以幫助提升精度和對高維數據結構的理解，是具備最佳預測準確率的子集。
數據規約	將屬性數據按比例縮放，使之落入到一個小的特定區間。找出最小屬性集合，使得數據類的機率分佈儘量地接近使用全部屬性的原分佈。
離散處理	離散化技術用來減小給定連續屬性的個數，這個過程一般是遞歸的，並且大量時間花在排序上。對於給定的數值屬性，概念分層定義了該屬性的一個離散化的值。
特徵提取	主要對圖像、聲音、信號等數據源，經過圖像處理、小波變換等創建一組新的、更緊湊的屬性來表示數據的過程。如圖像特徵提取是指根據圖像特徵，提取反映圖像本質的一些關鍵指標，以達到自動進行圖像識別或分類的目的。

說明：版本不斷更新，更多算法詳見：www.tipdm.com.cn

2. 分類與迴歸

分類是數據挖掘中應用得最多的方法。分類就是找出一個類別的概念描述，它表明了這類數據的總體信息，即該類的內涵描述，並用這種描述來構造模型，通常用規則或決策樹模式表示。分類是利用訓練數據集經過必定的算法而求得分類規則。分類可被用於規則描述和預測。

迴歸是利用歷史數據找出變化規律，創建模型，並由此模型對將來數據的種類及特徵進行預測。預測關心的是精度和不肯定性，一般用預測方差來度量。

分類與迴歸算法主要有：

l 貝葉斯：樸素貝葉斯網絡、貝葉斯信念網絡

l 決策樹及表：決策表、CART決策樹、ID3決策樹、C4.5決策樹

l 神經網絡：BP神經網絡、LM神經網絡、RBF神經網絡、FNN神經網絡、ANFIS神經網絡、WNN神經網絡

l 迴歸分析：線性迴歸、逐步迴歸、邏輯迴歸、保序迴歸

l 其它算法：AdaBoostM1算法、KStar算法、SVM支持向量機、K-最近鄰分類

主要算法介紹：

算法名稱	算法描述	輸出示例
BP 神經網絡	BP（Back Propagation）神經網絡是是一種按偏差逆傳播算法訓練的多層前饋網絡，是目前應用最普遍的神經網絡模型之一。
LM 神經網絡	Levenberg-Marquardt是基於梯度降低法和牛頓法結合的優化算法，特色：迭代次數少，收斂速度快，精確度高。
FNN 模糊神經網絡	模糊神經網絡（Fuzzy Neural Network,FNN）是具備模糊權係數或者輸入信號是模糊量的神經網絡，是模糊系統與神經網絡相結合的產物，它匯聚了神經網絡與模糊系統的優勢
RBF 徑向基神經網絡	徑向基函數(Radial Basis Function, RBF)神經網絡是具備單隱層的三層前饋網絡。它是一種局部逼近網絡，可以以任意精度逼近任意連續函數，特別適合於解決分類問題。
ANFIS 自適應神經模糊推理系統	自適應神經模糊推理系統（Adaptive Neural Fuzzy Inference System,ANFIS）是功能上與一階T-S模糊推理系統等價的自適應網絡，它是將神經網絡的學習機制引入模糊系統，構成一個帶有人類感受和認知成分的自適應系統。
WNN 小波神經網絡	小波神經網絡（Wavelet Neural Network,WNN）是基於小波變換而構成的神經網絡模型,即用非線性小波基取代一般的神經元非線性激勵函數(如Sigmoid函數),把小波變換與神經網絡有機地結合起來,充分繼承了二者的優勢。
SVM支持向量機	支持向量機是V.Vapnik等人在研究統計學習理論的基礎上發展起來的一種新的機器學習算法，它在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優點。支持向量機根據有限的樣本信息在模型的複雜性和學習能力之間尋求最佳折衷，以得到最好的推廣能力。
CART決策樹	分類與迴歸樹（classification and regression tree,CART），是一種十分有效的非參數分類和迴歸方法，經過構建樹、修剪樹、評估樹來構建一個二叉樹。

說明：版本不斷更新，更多算法詳見：www.tipdm.cn

3. 時序模式

時序模式是指經過時間序列搜索出的重複發生機率較高的模式。與迴歸同樣，它也是用己知的數據預測將來的值，但這些數據的區別是變量所處時間的不一樣。

時序模式類算法主要有：

l 指數平滑

l 多元迴歸

l GM灰色理論

l RBF神經網絡

l ANFIS神經網絡

l SVM支持向量機

主要算法介紹：

算法名稱	算法描述	輸出示例
指數平滑	使用指數平滑（Exponential Smoothing）方法進行時間序列預測
GM 灰色理論	使用灰色GM(1,1)模型進行時間序列預測
RBF 神經網絡	使用RBF神經網絡方法進行時間序列預測
多元迴歸	使用迴歸方法進行時間序列預測
SVM 支持向量機	使用SVM支持向量機方法進行時間序列預測
ANFIS 自適應神經模糊推理系統	使用ANFIS自適應神經模糊推理系統方法進行時間序列預測

說明：版本不斷更新，更多算法詳見：www.tipdm.cn

4. 聚類分析

聚類是把數據按照類似性概括成若干類別，同一類中的數據彼此類似，不一樣類中的數據相異。聚類分析能夠創建宏觀的概念，發現數據的分佈模式，以及可能的數據屬性之間的相互關係。

聚類分析類算法主要有：

l K-均值算法

l EM最大指望算法

l DBScan密度算法

l 改進K-均值算法

l 多層次聚類

主要算法介紹：

算法名稱	算法描述	輸出示例
K-均值算法	K-均值聚類(K-means clustering)是Mac Queen提出的一種非監督實時聚類算法，在最小化偏差函數的基礎上將數據劃分爲預約的類數K。
EM最大指望算法	最大指望（Expectation–Maximization,EM）算法是 Dempster,Laind,Rubin提出的求參數極大似然估計的一種方法，它能夠從非完整數據集中對參數進行 MLE 估計。
DBScan密度算法	DBScan（Density Based Spatial Clustering of Applications with Noise），是基於密度的聚類方法，它根據對象周圍的密度不斷增加聚類。它能從含有噪聲的空間數據庫中發現任意形狀的聚類。
多層次聚類	這種方法對給定的數據集合進行層次的分解，根據層次的分解如何造成，它又可分爲凝聚法(也稱自底向上方法)和分裂法(也稱爲從上向下方法)

5. 關聯規則

關聯規則挖掘是由Rakesh Apwal等人首先提出的。兩個或兩個以上變量的取值之間存在某種規律性，就稱爲關聯。數據關聯是數據庫中存在的一類重要的、可被發現的知識。關聯分爲簡單關聯、時序關聯和因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。通常用支持度和可信度兩個閥值來度量關聯規則的相關性，還不斷引入興趣度、相關性等參數，使得所挖掘的規則更符合需求。

關聯分析類算法主要有：

l HotSpot關聯規則

l Apriori關聯規則

l FP-Tree關聯規則

l HOTSPOT關聯規則

l 灰色關聯法

主要算法介紹：

說明：版本不斷更新，更多算法詳見：www.tipdm.cn

3.1.2 軟件界面

3.1.3 運行環境

一、硬件環境

² CPU：P4 3.0G以上，建議使用雙CPU

² 內存：1GB以上

² 硬盤：80G以上硬盤剩餘空間

二、軟件環境：Windows 2003 Sever

3.2 數據挖掘多媒體軟件

結合課程教學須要，教研版(TipDM-Res)提供配套的教學用多媒體軟件，指導學生快速瞭解和掌握數據挖掘建模技術。

多媒體軟件主要包含：混合編程、挖掘建模、完整案例、自動動手和交互練習等。如下是部分截圖：

3.3 數據挖掘教學PPT

結合課程教學須要，數據挖掘輔助教學套件(TipDM-Res)同時提供配套的教學用PPT:

主要包含如下內容：

3.4 數據挖掘實訓教程

結合課程教學須要，數據挖掘輔助教學套件提供實訓教程，方便學生基於數據挖掘軟件快速實現數據挖掘預測建模。

《數據挖掘：實用案例分析》和《MATLAB數據分析與挖掘實戰》中每一個案例分別由挖掘目標的提出、分析方法與過程、建模仿真、核心知識點和拓展思考等內容構成，以下圖示：

3.5 數據挖掘輔助教學案例庫

泰迪公司近10年來在電信、電力、金融、互聯網、教育、水產、稅務、生產製造等行業20多個數據挖掘應用整理成案例庫，案例庫包括項目背景、研究目標及詳細的技術實現路線，並配完整的數據資料。

3.6 大數據分析平臺

產品描述：雲數據挖掘引擎：包括雲分類引擎、雲聚類引擎、雲關聯規則引擎、雲智能推薦引擎等；調度系統：包括做業調度、做業監控和做業管理；主機監控系統：採集集羣中主機的cpu、memory、disk、process、network等相關數據，並採用圖形化的方式展現；雲平臺監控系統：監控雲計算平臺的運行指標，能夠實時監控雲平臺的運行狀況，子節點運行狀況；雲數據挖掘算法庫：包括隨機森林、K-Means聚類、推薦器、基於用戶的協同過濾等分佈式算法；培訓：包括Hadoop環境配置，理解Hadoop2.0和HDFS，開發MapReduce程序，Map端流程—聚合，分區和排序，Hadoop輸入輸出格式，優化MapReduce任務，高級MapReduce特性，Hadoop單元測試編程，HBase編程，Pig編程，Hive編程，Oozie工做流。

功能	模塊	說明
雲數據挖掘引擎	挖掘引擎	雲分類引擎、雲聚類引擎、雲關聯規則引擎、雲智能推薦引擎等
	調度系統	包括做業調度、做業監控和做業管理
	主機監控系統	主要用來採集集羣中主機的cpu、memory、disk、process、network等相關數據，並採用圖形化的方式展現
	雲平臺監控系統	主要用來監控雲計算平臺的運行指標，能夠實時監控雲平臺的運行狀況，子節點運行狀況，用來爲系統增長/刪除/更新節點提供知道依據。它主要包括：1）分佈式文件系統監控；2）做業監控；3）雲平臺管理等功能
雲數據挖掘算法庫	分類算法	基於並行計算的分類算法，如：一、樸素貝葉斯、貝葉斯網絡二、隨機森林三、神經網絡四、模糊神經網絡五、支持向量機
	聚類算法	基於並行計算的聚類算法，如：一、K-Means算法二、Canopy 算法三、Fuzzy K-Means算法四、Mean Shift算法
	關聯規則	基於並行計算的關聯規則算法，如：一、二項集關聯規則二、推薦器算法
	智能推薦	基於並行計算的智能推薦算法，如：一、基於用戶的協同過濾算法二、基於內容的協同過濾算法

3.7 大數據實戰培訓

3.7.1 環境部署

使用10臺實體服務器分別安裝Windows7 64位操做系統或者Linux（Redhat 六、CentOS 6均可）64位操做系統，每臺機器安裝Vmware軟件用於部署培訓使用虛擬機。

每臺實體服務器創建6個虛擬機（由HortonWorks提供），其虛擬機參數設置以下：

硬件	要求	備註
服務器數量	7（集羣）+1（數據庫服務器）+1（應用服務器）
CPU	廠家：Intel/AMD 主頻：3000MHz+ 核數：12+ L3緩存：15MB+ 線程數量：12+	針對全部服務器
內存	16G+（集羣） 8G+（數據庫服務器） 8G+（應用服務器）	最少8G
硬盤	SATA/SAS 1T+200G，2個磁盤驅動器，每一個500G+2個磁盤驅動器每一個100G（用做系統盤）（集羣） 1T+200G（數據庫服務器） 300G+200G （應用服務器）	最少50G
網絡	千兆以太網	固定IP
宿主機	支持虛擬化/64位系統
系統	CentOS6.4 64位	可爲虛擬機系統

說明：若需保持60個客戶端同時可操做，則每臺實體機開啓6個虛擬機，這時須要客戶端安裝Vmware相關軟件保證能夠遠程桌面到虛擬機。

3.7.2 虛擬機資源

虛擬機資源列表以下：

軟件	版本	備註
系統	CentOS6.4	64位
HDP Hadoop平臺	HDP2.0	包括服務： HDFS Yarn MapReduce Hive HBase Pig Ganglia Nagios ZooKeeper
Ambari	1.5	HDP調度軟件
Eclipse	4.3	Java 開發IDE
Java	1.6
數據		包含培訓使用各類數據

HDP平臺包括的服務有：

3.7.3 課程安排

培訓使用HortonWorks提供的培訓資料，幫助開發者瞭解HDP平臺，理解開發Hadoop程序的基本原理，最後可使培訓者能自主開發Hadoop程序，同時進行培訓後，學員能夠有更大的機會經過HortonWorks培訓師認證，其認證在業界是比較有含金量的。

課程安排：課程一共包含40課時，主要內容以下：

大綱	課程
Hadoop基礎	培訓準備：環境配置單元1：理解Hadoop2.0和HDFS 單元2：開發MapReduce程序
Hadoop進階	單元3：Map端流程—聚合單元4：分區和排序
Hadoop進階	單元5：Hadoop輸入輸出格式單元6：優化MapReduce任務單元7：高級MapReduce特性
Hadoop應用	單元8：Hadoop單元測試編程單元9：HBase編程單元10：Pig編程
Hadoop應用	單元11：Hive編程附錄A：Oozie工做流其餘：交流