全文檢索、數據分析挖掘、推薦系統、廣告系統、圖像識別、海量存儲、快速查詢java
l Hadoop介紹
n Hadoop來源與歷史
n Hadoop版本
n Hadoop開源與商業
l HDFS系統架構
n NameNode功能與原理
n DataNode功能與原理
n SecondaryNameNode功能與原理
n HDFS讀取寫入流程
n 理解HDFS Block
l Hadoop權限與安全
|
l Hadoop運行模式介紹
l 實驗:
n 搭建單機版、僞分佈式、分佈式集羣
n Hadoop命令使用
n 運行MapReduce Job
l Hadoop運維案例介紹
l HDFS配置文件說明
|
|
次日 |
l 集羣規劃
l 集羣監控、告警
l 集羣管理
l 集羣配置最佳實踐
|
l MapReduce簡介
l JobTracker、TaskTracker功能
l Hadoop HDFS API介紹
l Hadoop WebHDFS API介紹
l 實驗
n 使用Hadoop HDFS API
|
第三天 |
l MapReduce流程詳解
l MapReduce開發詳解
l MapReduce開發最佳實踐
l MapReduce 調優
l Hadoop Streaming開發詳解
l Pig語言詳解
|
l MapReduce系統參數說明
l 實驗:
n 使用Java開發MapReduce程序
n 使用python開發MapReduce程序
n Pig開發MapReduce程序
|
第四天 |
l HBase簡介和架構
HBase基本概念
HBase應用場景
HBase架構和核心模塊介紹
HBase存儲邏輯結構介紹
l HBase核心知識點
基本方法:Get/Put/Scan/Delete
列式存儲核心:LSM
日誌系統:WAL
底層存儲:HFile
複製、備份:Replication
過渡期:RIT
分裂、合併:Split/Compact
負載均衡:Load Balance
|
l HBase高級應用簡單介紹
批量記載:bulk load
監控系統:OpenTSDB
主鍵設計:key design
二級索引:secondary index
協處理器:Coprocessors
HBase安裝、部署、啓動
l
【動手操做】
集羣下安裝部署HBase
啓動HBase,啓動順序 測試啓動
HBase經常使用接口、金融、政府案例
l
【小組討論】
thrift接口
案例(需求剖析、架構設計)
l Hive使用
hive架構,一些特性
hive hadoop 配置 hive 配置文件 client工具介紹 hive hql介紹 |
1、Hadoop入門,瞭解什麼是hadooppython |
一、 Hadoop產生背景mysql 二、 Hadoop在大數據、雲計算中的位置和關係linux 三、 國內外Hadoop應用案例介紹程序員 四、 國內Hadoop的就業狀況分析及課程大綱介紹算法 五、 分佈式系統概述sql 六、 Hadoop生態圈以及各組成部分的簡介數據庫 七、 Hadoop核心MapReduce例子說明編程 |
2、分佈式文件系統HDFS,是數據庫管理員的基礎課程安全 |
一、 分佈式文件系統DFS簡介 二、 HDFS的系統組成介紹 三、 HDFS的組成部分詳解 四、 副本存放策略及路由規則 五、 NameNode Federation 六、 命令行接口 七、 Java接口 八、 客戶端與HDFS的數據流講解 九、 HDFS的可用性(HA)
|
3、初級MapReduce,成爲Hadoop開發人員的基礎課程 |
一、 如何理解map、reduce計算模型 二、 剖析僞分佈式下MapReduce做業的執行過程 三、 Yarn模型 四、 序列化 五、 MapReduce的類型與格式 六、 MapReduce開發環境搭建 七、 MapReduce應用開發 八、 更多示例講解,熟悉MapReduce算法原理 |
4、高級MapReduce,高級Hadoop開發人員的關鍵課程 |
一、 使用壓縮分隔減小輸入規模 二、 利用Combiner減小中間數據 三、 編寫Partitioner優化負載均衡 四、 如何自定義排序規則 五、 如何自定義分組規則 六、 MapReduce優化 七、 編程實戰 |
5、Hadoop集羣與管理,是數據庫管理員的高級課程 |
一、 Hadoop集羣的搭建 二、 Hadoop集羣的監控 三、 Hadoop集羣的管理 四、集羣下運行MapReduce程序 |
6、ZooKeeper基礎知識,構建分佈式系統的基礎框架 |
一、ZooKeeper體現結構 二、ZooKeeper集羣的安裝 三、操做ZooKeeper |
7、HBase基礎知識,面向列的實時分佈式數據庫 |
一、 HBase定義 二、 HBase與RDBMS的對比 三、 數據模型 四、 系統架構 五、HBase上的MapReduce 六、表的設計 |
8、HBase集羣及其管理 |
一、集羣的搭建過程講解 二、集羣的監控 三、集羣的管理 |
9、HBase客戶端 |
一、 HBase Shell以及演示 二、Java客戶端以及代碼演示 |
10、Pig基礎知識,進行hadoop計算的另外一種框架 |
一、 Pig概述 二、 安裝Pig 三、 使用Pig完成手機流量統計業務 |
11、Hive,使用sql進行計算的hadoop框架 |
一、 數據倉庫基礎知識 二、 Hive定義 三、 Hive體系結構簡介 四、 Hive集羣 五、 客戶端簡介 六、 HiveQL定義 七、 HiveQL與SQL的比較 八、 數據類型 九、表與表分區概念 十、表的操做與CLI客戶端演示 十一、數據導入與CLI客戶端演示 十二、查詢數據與CLI客戶端演示 1三、數據的鏈接與CLI客戶端演示 1四、用戶自定義函數(UDF)的開發與演示 |
12、Sqoop,hadoop與rdbms進行數據轉換的框架 |
一、配置Sqoop 二、使用Sqoop把數據從mysql導入到HDFS中 三、使用Sqoop把數據從HDFS導出到mysql中 |
十3、大數據實戰 |
互聯網大數據收集、存儲、數據使用完整架構和操做 |
Hadoop背景介紹 |
HDFS使用 |
Hadoop生態系統概覽 |
HDFS命令行工具 |
Hadoop分佈式文件系統(HDFS) |
啓動、中止HDFS服務 |
什麼是HDFS |
如何查看HDFS日誌 |
HDFS設計目標 |
查看HDFS Web控制檯 |
HDFS系統特色 |
HDFS配置參數 |
HDFS工做原理 |
上機開發環境介紹 |
HDFS服務進程 |
HDFS開發 |
|
Java API詳解 |
|
FuseHDFS |
|
WebHDFS Restful API |
|
上機練習 |
次日上午 (9:00-12:00) |
次日下午 (13:00-16:00) |
MapReduce分佈式計算框架 |
MapReduce示例程序解析 |
什麼是MapReduce |
MapReduce框架類庫介紹 |
MapReduce服務 |
MapReduce實戰,你的第一個MapReduce項目 |
MapReduce工做機制 |
項目需求簡述 |
MapReduce調度管理 |
項目設計討論 |
MapReduce參數設置 |
項目僞代碼分析 |
啓動、中止MapReduce服務 |
項目實現,上機練習 |
如何查看MapReduce日誌 |
|
查看MapReduce Web控制檯 |
|
第三天上午 (9:00-12:00) |
第三天下午 (13:00-16:00) |
MapReduce進階實戰 |
如何用其它語言開發MapReduce應用 |
項目性能優化 |
MapReduce經常使用算法(Sort、Index、Join、IF-IDF等)介紹 |
上機練習 |
Hadoop生態系統介紹 |
項目結果分類彙總 |
HBase入門 |
上機練習 |
利用Oozie對MapReduce任務進行調度 |
項目結果排序 |
利用Flume NG 和 Sqoop與各類數據源對接 |
上機練習 |
利用Hive和Pig來簡化MapReduce的開發 |
|
ZooKeeper介紹 |
Hadoop背景介紹 |
HHDFS實戰 |
Hadoop生態系統概覽 |
Hadoop安裝 |
Hadoop分佈式文件系統(HDFS) |
HDFS命令行工具 |
什麼是HDFS |
啓動、中止HDFS服務 |
HDFS設計目標 |
如何查看HDFS日誌 |
HDFS系統特色 |
查看HDFS Web控制檯 |
HDFS工做原理 |
HDFS配置參數 |
HDFS服務進程 |
|
次日上午(9:00-12:00) |
次日下午(13:00-16:00) |
MapReduce分佈式計算框架 |
集羣規劃 |
什麼是MapReduce |
系統及硬件推薦配置 |
MapReduce服務 |
集羣性能評估 |
MapReduce工做機制 |
集羣維護與管理 |
MapReduce調度管理 |
查看集羣狀態 |
上機實驗 |
上機實驗 |
運行MapReduce任務 |
模擬集羣失效 |
MapReduce參數設置 |
上機實驗 |
啓動、中止MapReduce服務 |
添加刪除節點 |
如何查看MapReduce日誌 |
數據平衡 |
查看MapReduce Web控制檯 |
元數據備份 |
文件數據跨集羣拷貝 |
|
集羣升級 |
|
Ganglia(運維工具) |
|
Ganglia簡介 |
|
Ganglia與Hadoop的集成 |
|
Hadoop中可監控的項目介紹 |
|
|
Hadoop生態系統介紹 |
hive
Hive
|
u Hive概念
u Hive架構原理
u 如何利用Hive用戶接口提交做業
u Hive主要配置詳解
u HiveQL語法講解及使用
u 編寫UDF及UDAF、UDTF函數
u Hive與HBase的整合
u HiveQL優化
u實際案例講解
|
u 目標:掌握HQL語法及調優方法
u 實驗:使用HQL語句和自定義函數實現簡單和複雜的數據統計
|
hbase:
u HBase簡介
u HBase部署、配置
u 客戶端API:管理功能
u 客戶端API:CRUD
u HBase經常使用命令
u HBase交互方式
u HBase架構
u 過濾器
u 協處理器
u 集羣管理和監控
u 性能優化
u HBase運維管理
u HBase發展趨勢
|
u 目標:掌握HBase主要功能,熟練使用API開發應用程序,掌握集羣運維方法
u 實驗:
u 部署HBase集羣
u 經過Java程序管理表
u 經過Java程序增刪改查數據
u 編寫過濾器精細控制數據
u 編寫2種協處理器程序
u HBase表管理
u HBase Region轉移和備份
u Split&Compact策略
u regionserver平常維護
u master平常維護
|
zookeeper:
ZooKeeper
|
u 概念介紹和基本原理
u 集羣安裝部署
u Zookeeper Server角色
u Zookeeper Server選舉、同步和工做流程
u Leader的工做流程
u Follower的工做流程
u Zookeeper的擴展
u Zookeeper的應用場景
u Zookeeper性能調優
u 數據一致性與Paxos算法
|
u 目標:瞭解ZooKeeper在Hadoop系統中的做用,掌握基本運維知識
u 實驗:搭建ZooKeeper集羣
|
flume:
u Flume簡介
u Flume架構設計
u Flume原理及常見配置
u Flume部署、安裝、配置
u Flume經常使用Source、Sink、Decorator
u Flume經常使用命令
u Flume與Hadoop、HBase集成
u 編寫Source、Sink、Decorator插件
|
u 目標:掌握Flume Agent和Collector配置
|
spark:
Spark 是一種與 Hadoop 類似的開源集羣計算環境,可是二者之間還存在一些不一樣之處,這些有用的不一樣之處使 Spark 在某些工做負載方面表現得更加優越,換句話說,Spark 啓用了內存分佈數據集,除了可以提供交互式查詢外,它還能夠優化迭代工做負載。
Spark 是在 Scala 語言中實現的,它將 Scala 用做其應用程序框架。與 Hadoop 不一樣,Spark 和 Scala 可以緊密集成,其中的 Scala 能夠像操做本地集合對象同樣輕鬆地操做分佈式數據集。儘管建立 Spark 是爲了支持分佈式數據集上的迭代做業,可是實際上它是對 Hadoop 的補充,能夠在 Hadoo 文件系統中並行運行。
經過名爲 Mesos 的第三方集羣框架能夠支持此行爲。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發,可用來構建大型的、低延遲的數據分析應用程序。
課程
|
技術原理
|
動手操做
|
Spark |
Spark的簡介
Spark的原理
Spark與hadoop的比較
Spark安裝
Mesos介紹
Mesos安裝
Spark生態系統介紹
Spark核心概念
Spark語言學習
Spark語言學習
Spark案例實戰 |
實驗: 安裝 使用 |
storm:
Storm是Twitter開源的一個相似於Hadoop的實時數據處理框架(原來是由BackType開發,後BackType被Twitter收購,將Storm做爲Twitter的實時數據分析)。實時數據處理的應用場景很普遍。 這種高可拓展性,能處理高頻數據和大規模數據的實時流計算解決方案將被應用於實時搜索,高頻交易和社交網絡上。而流計算並非最近的熱點,金融機構的交易系統正是一個典型的流計算處理系統,它對系統的實時性和一致性有很高要求。
twitter列舉了storm的三大做用領域:
1) 信息流處理(Stream Processing)
Storm能夠用來實時處理新數據和更新數據庫,兼具容錯性和可擴展性。
2) 連續計算(Continuous Computation)
Storm能夠進行連續查詢並把結果即時反饋給客戶,好比將Twitter上的熱門話題發送到客戶端。
3) 分佈式遠程過程調用(Distributed RPC)
Storm能夠用來並行處理密集查詢,Storm的拓撲結構(後文會介紹)是一個等待調用信息的分佈函數,當它收到一條調用信息後,會對查詢進行計算,並返回查詢結果。
機器學習概述
|
數據處理 統計分析 數據挖掘 模型預測 結果呈現 |
k-近鄰算法
|
|
決策樹
|
|
基於機率論的分類方法:樸素貝葉斯
|
|
Logisstic迴歸
|
|
支持向量機
|
|
利用AdaBoost元算法提升分類性能
|
|
預測數值型數據:迴歸
|
|
樹迴歸
|
|
利用k-均值聚類算法對未標註數據分組
|
|
使用Apriori算法進行關聯分析
|
|
使用FP-growth算法來高效發現頻繁項集
|
|
利用PCA來簡化數據
|
|
利用SVD來簡化數據
|
|
大數據與MapReduce
|
課程
|
技術原理
|
動手操做
|
Storm
|
Storm簡介 Storm安裝部署 Storm架構及工做原理詳解 命令詳解 二次開發編寫 維護管理 案例 |
pig:
Pig是一個基於Hadoop的大規模數據分析平臺,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數據分析請求轉換爲一系列通過優化處理的MapReduce運算。Pig爲複雜的海量數據並行計算提供了一個簡單的操做和編程接口。
課程
|
技術原理
|
動手操做
|
|
Pig
|
u Pig簡介
u 安裝和運行Pig
u Pig Latin詳解
u 命令行使用以及配置選項介紹
|
電信行業:
第一天 |
l 電信業大數據概述
n 電信業大數據現狀(聯通、移動、電信)和挑戰
n 電信業大數據解決方案
l Hadoop介紹
n Hadoop來源與歷史
n Hadoop版本
n Hadoop開源與商業
l HDFS系統架構
n NameNode功能與原理
n DataNode功能與原理
n SecondaryNameNode功能與原理
n HDFS讀取寫入流程
n 理解HDFS Block
l Hadoop權限與安全
|
l Hadoop運行模式介紹
l 實驗:
n 搭建單機版、僞分佈式、分佈式集羣
n Hadoop命令使用
n 運行MapReduce Job
l Hadoop運維案例介紹
l HDFS配置文件說明
|
次日 |
l 集羣規劃
l 集羣監控、告警
l 集羣管理
l 集羣配置最佳實踐
|
l MapReduce簡介
l JobTracker、TaskTracker功能
l Hadoop HDFS API介紹
l Hadoop WebHDFS API介紹
l 實驗
n 使用Hadoop HDFS API
|
第三天 |
l MapReduce流程詳解
l MapReduce開發詳解
l MapReduce開發最佳實踐
l MapReduce 調優
l Hadoop Streaming開發詳解
l Pig語言詳解
|
l MapReduce系統參數說明
l 實驗:
n 使用Java開發MapReduce程序
n 使用python開發MapReduce程序
n Pig開發MapReduce程序
|
第四天 |
l HBase簡介和架構
HBase基本概念
HBase應用場景
HBase架構和核心模塊介紹
HBase存儲邏輯結構介紹
l HBase核心知識點
基本方法:Get/Put/Scan/Delete
列式存儲核心:LSM
日誌系統:WAL
底層存儲:HFile
複製、備份:Replication
過渡期:RIT
分裂、合併:Split/Compact
負載均衡:Load Balance
l 電信行業應用案例
案例1 案例2 |
l HBase高級應用簡單介紹
批量記載:bulk load
監控系統:OpenTSDB
主鍵設計:key design
二級索引:secondary index
協處理器:Coprocessors
HBase安裝、部署、啓動
l
【動手操做】
集羣下安裝部署HBase
啓動HBase,啓動順序 測試啓動
HBase經常使用接口、金融、政府案例
l
【小組討論】
thrift接口
案例(需求剖析、架構設計)
l Hive使用
hive架構,一些特性
hive hadoop 配置 hive 配置文件 client工具介紹 hive hql介紹 |
大數據技術高薪就業班 | |||||||||||||||||||||||||||
培訓時長:
8天,推薦就業 詳情參見
www.bihadoop.com
課程目標:
一、瞭解Hadoop的歷史及目前發展的現狀、以及Hadoop的技術特色,從而把握分佈式計算框架及將來發展方向,在大數據時代能爲企業的技術選型及架構設計提供決策參考。
二、全面掌握Hadoop的架構原理和使用場景,並經過貫穿課程的項目進行實戰鍛鍊,從而熟練使用Hadoop進行MapReduce程序開發。課程還涵蓋了分佈式計算領域的經常使用算法介紹,幫助學員爲企業在利用大數據方面體現自身價值。
三、深刻理解Hadoop技術架構,對Hadoop運做機制有清晰全面的認識,能夠獨立規劃及部署生產環境的Hadoop集羣,掌握Hadoop基本運維思路和方法,對Hadoop集羣進行管理和優化。
招生對象:
本課程適合於有必定java基礎知識,對數據庫和sql語句有必定了解,熟練使用linux系統的學生,特別適合於大專院校計算機專業的學生,開發基礎薄弱的未就業人士以及在職程序員(無Java和數據庫基礎學生,須要增長前置課程,2個月,諮詢客服)。
課程安排
|