Hadoop2.0、YARN技術大數據視頻教程

基於Hadoop2.0、YARN技術的大數據高階應用實戰(Hadoop2.0\YARN\MapReduce\數據挖掘\項目實戰)
課程分類:Hadoop
適合人羣:高級
課時數量:81課時
用到技術:基於協同過濾的推薦系統、基於HBase的爬蟲調度庫
涉及項目:銀行人民幣查詢系統、HBase編程實踐及案例分析
諮詢qq:1840215592html

課程內容簡介
本課程基於《基於Greenplum Hadoop分佈式平臺的大數據解決方案》Hadoop部分的基礎課程來進行擴展延伸,主要內容分爲如下四部分:
1、對Hadoop最新的2.0系列版本和YARN進行介紹,掌握最前沿的Hadoop技術框架。
2、針對MapReduce和HBase的高階應用作深刻的講解和實戰演練。
3、講解以前基礎篇中未涉及的Hadoop子項目,包括Cassandra、Sqoop、Avatar、Mahout、Avro、Flume等
4、Hadoop與R結合應用、Hadoop源代碼導讀基礎及最後的綜合實戰
Hadoop2.0、YARN技術大數據視頻教程詳細介紹:http://***/goods-440.htmlmysql

適合對象:
一、要求具備必定的Linux和Java基礎
二、要求具備必定SQL語言基礎
三、學習完《基於Greenplum Hadoop分佈式平臺的大數據解決方案》Hadoop部分的基礎課程算法

課程大綱
Hadoop高階應用課程(81課時)
Hadoop 2.0(6課時)
Hadoop 2.0產生背景
Hadoop 2.0基本構成
HDFS 2.0
MapReduce 2.0
Hadoop 2.0安裝配置
集羣測試
YARN資源管理系統(4課時)
YARN產生背景
YARN基本設計思想
YARN基本架構
YARN工做流程
YARN通訊協議
YARN容錯
YARN資源調度機制
YARN支持的計算框架(Storm,Tez,Spark)(11課時)
以YARN爲核心的生態系統
Storm基本概念
Storm流式計算框架
基於YARN的Storm架構
YARN-Storm部署
Storm On YARN服務
Apache Tez介紹
Tez特色
Tez數據處理引擎
DAGAppMaster實現
Tez優化機制
Tez應用場景
Tez部署
什麼是Spark
Spark生態系統
Spark的核心--RDD和Lineage
RDD的存儲、容錯機制、內部設計及數據模型
Spark調度框架
Spark的分佈式部署方式
基於Mesos的Spark模式
基於YARN的Spark模式
Spark的獨立模式部署
Spark的YARN模式部署
MapReduce多語言編程(5課時)
MapReduce編程接口
Java編程接口實例解析
Hadoop Streaming實現方式
Hadoop Streaming編程實戰(C++,PHP,PYTHON)
Hadoop Streaming原理剖析
Hadoop Pipes的編程實例
Hadoop Pipes的原理剖析
MapReduce高階實現(14課時)
複雜的MapReduce應用
K-means聚類、貝葉斯分類等
工做流編程實例及原理剖析
JobControl、ChainMapper/ChainReducer
Hadoop工做流引擎
經常使用MapReduce優化技巧
配置多個reducer
設置Stream的處理格式
控制分片的大小
避免分片
輸入格式:文本輸入、多種類型輸入
輸出控制:多個輸出、延遲輸出
實戰:數據分區
MapReduce高級特性
計數器、內置計數器
實例:用戶自定義計數器
MapReduce部分排序的實現
實例:MapReduce全排序
Terasort算法分析
實例:MapReduce實現二次排序
鏈接、Map端鏈接的實現
實例:Reduce端鏈接
鏈接類型、鏈接策略介紹
重分區鏈接框架的實現
複製鏈接框架的實現
實例:半鏈接
全局做業參數/數據文件傳遞
HBase編程實踐及案例分析(10課時)
HBase基礎精講
HBase Java編程實例
HBase多語言編程
Thrift安裝、服務配置
HBase C++編程實例
HBase Python編程實例
HBase MapReduce編程基礎
實戰:HBase MapReduce編程
Hbase案例:OpenTSDB的實現
基於HBase的爬蟲調度庫
基於HBase的爬蟲索引庫
銀行人民幣查詢系統
Sqoop(6課時)
Sqoop產生背景、基本
Sqoop1和Sqoop2架構及特色
Sqoop1安裝配置(版本1.4.4)
Sqoop導入介紹
實戰:從mysql導入數據到HDFS
實戰:從mysql導入數據到Hive
Sqoop導出介紹
實戰:將Hive數據導出到Mysql
Sqoop與Hbase結合
Sqoop做業操做
Sqoop做業安全配置
Sqoop2安裝配置(版本1.99.3)
Sqoop2使用綜合實戰
Flume日誌收集系統(7課時)
Flume概念和特色
Flume OG架構、組成、特色、容錯機制設計
日誌收集系統綜合比較
Flume NG架構、核心概念
Flume OG的安裝
Flume OG的配置(Web端、Flume shell)
Flume NG的安裝配置、測試
Flume NG模塊配置(Source、Channel、Sink)
Flume NG配置實戰分析
Avro數據序列化系統(1課時)
Avro介紹
Avro特性、主要做用
RPC使用Avro
Avro與其餘序列化系統的區別
Mahout數據挖掘工具(10課時)
數據挖掘概念、系統組成
數據挖掘經常使用方法及算法(迴歸分析、分類、聚類等)
數據挖掘分析工具
Mahout支持的算法
Mahout起源和特色
Mahout安裝、配置及測試
實戰:Mahout K-means聚類分析
Mahout實現Canopy算法
Mahout實現分類算法
實戰:Mahout邏輯迴歸分類預測
實戰:Mahout樸素貝葉斯分類
推薦系統的概念及分類
協同過濾推薦算法概念、分類及應用
實戰:實現基於Mahout的電影推薦系統
Hadoop綜合實戰-文本挖掘項目(7課時)
文本挖掘的概念及應用場景
項目背景
項目流程
中文分詞技術
庖丁分詞器的使用
MapReduce並行分詞程序的設計與實現
Pig劃分數據集
Mahout構建樸素貝葉斯文本分類器
模型應用-計算用戶偏好類別sql

相關文章
相關標籤/搜索