隨着雲計算、大數據迅速發展,亟需用hadoop解決大數據量高併發訪問的瓶頸。谷歌、淘寶、百度、京東等底層都應用hadoop。愈來愈多的企 業急需引入hadoop技術人才。因爲掌握Hadoop技術的開發人員並很少,直接致使了這幾年hadoop技術的薪水遠高於JavaEE及 Android程序員。java
Hadoop入門薪資已經達到了 8K 以上,工做1年可達到 1.2W 以上,具備2-3年工做經驗的hadoop人才年薪能夠達到 30萬—50萬 。linux
通常須要大數據處理的公司基本上都是大公司,因此學習hadoop技術也是進大公司的捷徑!程序員
本課程講師擁有多年Greenplum和Hadoop實戰經驗,課程注重實踐,原理剖析,實踐分享,讓學員能快速全面地掌握Greenplum操做和調優,以及Hadoop的搭建與運用實戰。sql
課程實戰、實用、實際,總共 96 課時,系史上最全最深刻的講解Greenplum、Hadoop、雲計算相關領域的技能課程,北風僅以此課程獻給有志於從事大數據行業,追求高薪的有想法的程序員。shell
課程亮點多多:數據庫
亮點1、技術混搭編程
Greenplum+Hadoop,讓你全面掌握玩轉大數據的倚天劍和屠龍刀,讓你學到不同的精彩,成爲不同的複合型 人才!數據結構
亮點2、高成低也就架構
亮點3、既注重技術基礎,手把手傳授技術,經過實操實戰的講授過程讓學員沉澱技術,打好牢固堅實的基礎;另外,也不 忘從行業、架構的高度,幫助你們擴寬視野,遊刃有餘。併發
亮點4、注重實踐:原理剖析,實踐分享;讓學員能快速全面地掌握Greenplum操做和調優,以及Hadoop的搭建與運用實戰。
實戰、實用、實際
亮點5、 全面覆蓋了Greenplum完整知識體系,及關係型數據庫管理和調優思想;
亮點6、課程涵蓋Hadoop生態系統中全部經常使用組件;
亮點7、 學完此課程能夠得到IT行業高薪職業發展能力。
GREENPLUM適用場景:
Greenplum的架構採用了MPP(大規模並行處理)。在 MPP 系統中,每一個 SMP 節點也能夠運行本身的操做系統、數據庫等,它的特色主要就是查詢速度快,數據裝載速度快,批量DML處理快。並且性能能夠隨着硬件的添加,呈線性增長,擁有很是良好的可擴展性。所以,它主要適用於面向分析的應用。好比構建企業級ODS/EDW,或者數據集市等等。
GREENPLUM的前景:
GREENPLUM 誕生於2003年硅谷,2010/07 EMC收購了GREENPLUM,並把GREENPLUM做爲EMC面向分析雲的戰略核心產品,加以大力發展。該產品不只在國際市場發展很快,在國內市場發展也很快。最著名的案例就是阿里巴巴集團,通過多種產品的精心選型,最終選擇GREENPLUM做爲它們的數據倉庫平臺存放數百TB的業務數據去高效支持各類分析應用。正是因爲產品發展速度很快,可是在相關人才上存在很大缺口。
Greenplum Hadoop大數據分析平臺:
大量的半結構化和非結構化信息沒法管理和存儲,大數據增加速度驚人,每一年以幾何級數速度增加,須要有專業化的解決方案應對大數據挑戰。EMC收購了Greenplum以後,推出的針對Hadoop的Greenplum的數據庫軟件。採用Greenplum HD技術管理半結構化和非結構化信息,總體TCO更低,除了進行有效存儲和管理,能夠經過MapReduce技術進行並行的分析和挖掘,把大量的數據存儲變成有價值的數據資產。
課程內容簡介:
本課程分兩大部分:
第一部分全面深刻地介紹了Greenplum數據庫,包括架構特性、部署、管理、開發和調優等,由淺入深,理論結合實戰,讓同窗全面完全掌握這把大數據利劍。
第二部分深刻闡述了Hadoop的架構原理,Hadoop總體技術架構,包括HBase、Hive、Pig、ZooKeeper、Chukwa等實戰運用。另外還介紹了雲計算的基礎知識和Hadoop在雲計算領域的運用,以及剖析了Hadoop在各個互聯網巨頭商業環境的運用。
本課程適合於有必定java基礎知識,對數據庫和sql語句有必定了解,熟練使用linux系統的技術人員,特別適合於想換工做或尋求高薪職業的人士。
課程結束時,幫助學員實現以下目標:
一、瞭解Greenplum和Hadoop的歷史及目前發展的現狀、以及它們的技術特色,從而把握分佈式計算框架及將來發展方向,在大數據時代能爲企業的技術選型及架構設計提供決策參考。
二、深刻理解Greenplum的技術核心和管理操做,以此爲基礎,進而掌握MPP架構數據庫的使用和調優的思想。
三、全面掌握Hadoop的架構原理和使用場景,並經過貫穿課程的項目進行實戰鍛鍊,從而熟練使用Hadoop進行MapReduce程序開發。
四、深刻理解Hadoop總體技術架構,包括HBase、Hive、Pig、ZooKeeper、Chukwa等,對Hadoop運做機制有清晰全面的認識,能夠獨立規劃及部署生產環境的Hadoop集羣,掌握Hadoop基本運維思路和方法,對Hadoop集羣進行管理和優化。
五、理解什麼是雲計算和Hadoop在雲計算領域的運用,以及理解Hadoop在各個互聯網巨頭商業環境的運用。
第一部分 Greenplum 分佈式數據庫基礎(41課時)
1 Greenplum架構
什麼是Greenplum
Greenplum體系結構
Greenplum高可用性架構
2 安裝Greenplum
配置環境
安裝並初始化GPDB系統
啓停數據庫
配置GP系統
3 分佈式數據庫存儲
數據是如何存儲的
分佈策略
4
GBDB查詢處理
查詢命令的執行
SQL查詢處理機制
並行查詢計劃
5 角色權限及客戶端認證管理
客戶端認證
管理用戶和組
6 客戶端接口和程序
pgAdmin III
PSQL
7 定義數據庫對象
建立並管理數據庫
建立並管理表空間
建立並管理模式
建立並管理表
分區表
數據分佈與分區
壓縮存儲與行列存儲
序列、索引與視圖
8 管理數據
插入、更新、刪除記錄
事務管理
空間回收和統計
9 查詢數據
定義查詢
使用函數和運算符
查詢分析
10 工做負載及
資源
管理
GP工做負載管理概述
配置工做負載管理
建立資源隊列
分配資源隊列
檢查資源隊列狀態
11 裝載和卸載數據
GP裝載命令概述
裝載數據到GP
從GP卸載數據
格式化數據文件
12 備份恢復
串行備份和恢復
並行恢復和恢復
13 性能調優
如何進行調優
常見的性能問題
14 GP系統配置參數
關於GP的Master參數與本地化參數
設置配置參數
配置參數種類
15 開啓高可用性
GP高可用概述
開啓GP的Mirror
獲知Segment什麼時候失敗
恢復失敗的Segment
恢復失敗的Master
16 GP MapReduce
MapReduce基礎
GP MapReduce編程
MapReduce做業執行和故障診斷
第二部分 Hadoop分佈式平臺(55課時)
1 Hadoop的起源和體系
Hadoop思想起源:Google
Hadoop子項目家族
Hadoop的架構
2 Hadoop的安裝與配置
準備和配置環境
三種運行模式
徹底分佈式模式安裝
3 HDFS-大數據存儲
HDFS概念與體系結構
HDFS的可靠性
HDFS文件操做
HDFS API
4 關於MapReduce
MapReduce編程模型
MapReduce的集羣行爲
MapReduce任務的優化
MapReduce工做機制
錯誤處理及做業調度機制
5 MapReduce應用開發
Hadoop Eclipse插件開發
數據篩選程序開發
倒排索引程序開發
6 Hadoop監控與管理
頁面監控
hadoop備份
7 HBase數據庫
Hbase體系結構
HBase shell
HBase API應用實例
HBase場景應用
HBase模式設計
8 Hive數據倉庫
Hive組件與體系架構
Hive安裝配置
Hive的服務接口
HiveQL經常使用操做
Hive的優化
Hive UDF編程
Hive綜合實戰
9 Pig數據分析平臺
Pig框架
Pig安裝配置
Pig的使用
Pig的數據模型
經常使用Pig Latin操做
Pig UDF編程
Pig數據分析實戰
10 ZooKeeper分佈式服務框架
ZooKeeper工做原理
ZooKeeper設計目標
ZooKeeper的數據結構和組成
ZooKeeper的安裝配置
ZooKeeper命令行工具
ZooKeeper API
ZooKeeper實戰:Hadoop任務調度
11 Chukwa集羣監控系統
Chukwa的組成
Chukwa架構和設計
Chukwa安裝與配置
經常使用Chukwa命令
實現自定義數據處理
12 Hadoop商業應用案例
雲計算概念和特徵
雲計算服務模式和形態
Hadoop在雲計算的運用
京東商城
百度
阿里巴巴
騰訊
13 Greenplum Hadoop集羣
集成架構的特徵
集成架構的優點
配置gphdfs協議使用環境
使用HDFS外部表