基於Greenplum Hadoop分佈式平臺的大數據解決方案及商業應用案例剖析

時間 2019-11-22

標籤基於 greenplum hadoop 分佈式平臺數據解決方案商業應用案例剖析欄目 Hadoop 简体版

原文原文鏈接

隨着雲計算、大數據迅速發展，亟需用hadoop解決大數據量高併發訪問的瓶頸。谷歌、淘寶、百度、京東等底層都應用hadoop。愈來愈多的企業急需引入hadoop技術人才。因爲掌握Hadoop技術的開發人員並很少，直接致使了這幾年hadoop技術的薪水遠高於JavaEE及 Android程序員。java

Hadoop入門薪資已經達到了 8K 以上，工做1年可達到 1.2W 以上，具備2-3年工做經驗的hadoop人才年薪能夠達到 30萬—50萬 。linux

通常須要大數據處理的公司基本上都是大公司，因此學習hadoop技術也是進大公司的捷徑！程序員

本課程講師擁有多年Greenplum和Hadoop實戰經驗，課程注重實踐，原理剖析，實踐分享，讓學員能快速全面地掌握Greenplum操做和調優，以及Hadoop的搭建與運用實戰。sql

課程實戰、實用、實際，總共 96 課時，系史上最全最深刻的講解Greenplum、Hadoop、雲計算相關領域的技能課程，北風僅以此課程獻給有志於從事大數據行業，追求高薪的有想法的程序員。shell

課程亮點多多：數據庫

亮點1、技術混搭編程

Greenplum+Hadoop，讓你全面掌握玩轉大數據的倚天劍和屠龍刀，讓你學到不同的精彩，成爲不同的複合型人才！數據結構

亮點2、高成低也就架構

亮點3、既注重技術基礎，手把手傳授技術，經過實操實戰的講授過程讓學員沉澱技術，打好牢固堅實的基礎；另外，也不忘從行業、架構的高度，幫助你們擴寬視野，遊刃有餘。併發

亮點4、注重實踐：原理剖析，實踐分享；讓學員能快速全面地掌握Greenplum操做和調優，以及Hadoop的搭建與運用實戰。

實戰、實用、實際

亮點5、全面覆蓋了Greenplum完整知識體系，及關係型數據庫管理和調優思想；

亮點6、課程涵蓋Hadoop生態系統中全部經常使用組件；

亮點7、學完此課程能夠得到IT行業高薪職業發展能力。

GREENPLUM適用場景：

Greenplum的架構採用了MPP(大規模並行處理)。在 MPP 系統中，每一個 SMP 節點也能夠運行本身的操做系統、數據庫等，它的特色主要就是查詢速度快，數據裝載速度快，批量DML處理快。並且性能能夠隨着硬件的添加，呈線性增長，擁有很是良好的可擴展性。所以，它主要適用於面向分析的應用。好比構建企業級ODS/EDW，或者數據集市等等。

GREENPLUM的前景：

GREENPLUM 誕生於2003年硅谷，2010/07 EMC收購了GREENPLUM，並把GREENPLUM做爲EMC面向分析雲的戰略核心產品，加以大力發展。該產品不只在國際市場發展很快，在國內市場發展也很快。最著名的案例就是阿里巴巴集團，通過多種產品的精心選型，最終選擇GREENPLUM做爲它們的數據倉庫平臺存放數百TB的業務數據去高效支持各類分析應用。正是因爲產品發展速度很快，可是在相關人才上存在很大缺口。

Greenplum Hadoop大數據分析平臺:

大量的半結構化和非結構化信息沒法管理和存儲，大數據增加速度驚人，每一年以幾何級數速度增加，須要有專業化的解決方案應對大數據挑戰。EMC收購了Greenplum以後，推出的針對Hadoop的Greenplum的數據庫軟件。採用Greenplum HD技術管理半結構化和非結構化信息，總體TCO更低，除了進行有效存儲和管理，能夠經過MapReduce技術進行並行的分析和挖掘，把大量的數據存儲變成有價值的數據資產。

課程內容簡介：

本課程分兩大部分：

第一部分全面深刻地介紹了Greenplum數據庫，包括架構特性、部署、管理、開發和調優等，由淺入深，理論結合實戰，讓同窗全面完全掌握這把大數據利劍。

第二部分深刻闡述了Hadoop的架構原理，Hadoop總體技術架構，包括HBase、Hive、Pig、ZooKeeper、Chukwa等實戰運用。另外還介紹了雲計算的基礎知識和Hadoop在雲計算領域的運用，以及剖析了Hadoop在各個互聯網巨頭商業環境的運用。

本課程適合於有必定java基礎知識，對數據庫和sql語句有必定了解，熟練使用linux系統的技術人員，特別適合於想換工做或尋求高薪職業的人士。

課程結束時，幫助學員實現以下目標：

一、瞭解Greenplum和Hadoop的歷史及目前發展的現狀、以及它們的技術特色，從而把握分佈式計算框架及將來發展方向，在大數據時代能爲企業的技術選型及架構設計提供決策參考。

二、深刻理解Greenplum的技術核心和管理操做，以此爲基礎，進而掌握MPP架構數據庫的使用和調優的思想。

三、全面掌握Hadoop的架構原理和使用場景，並經過貫穿課程的項目進行實戰鍛鍊，從而熟練使用Hadoop進行MapReduce程序開發。

四、深刻理解Hadoop總體技術架構，包括HBase、Hive、Pig、ZooKeeper、Chukwa等，對Hadoop運做機制有清晰全面的認識，能夠獨立規劃及部署生產環境的Hadoop集羣，掌握Hadoop基本運維思路和方法，對Hadoop集羣進行管理和優化。

五、理解什麼是雲計算和Hadoop在雲計算領域的運用，以及理解Hadoop在各個互聯網巨頭商業環境的運用。

第一部分 Greenplum 分佈式數據庫基礎（41課時）

1 Greenplum架構

什麼是Greenplum

Greenplum體系結構

Greenplum高可用性架構

2 安裝Greenplum

配置環境

安裝並初始化GPDB系統

啓停數據庫

配置GP系統

3 分佈式數據庫存儲

數據是如何存儲的

分佈策略

4 GBDB查詢處理

查詢命令的執行

SQL查詢處理機制

並行查詢計劃

5 角色權限及客戶端認證管理

客戶端認證

管理用戶和組

6 客戶端接口和程序

pgAdmin III

PSQL

7 定義數據庫對象

建立並管理數據庫

建立並管理表空間

建立並管理模式

建立並管理表

分區表

數據分佈與分區

壓縮存儲與行列存儲

序列、索引與視圖

8 管理數據

插入、更新、刪除記錄

事務管理

空間回收和統計

9 查詢數據

定義查詢

使用函數和運算符

查詢分析

10 工做負載及 資源管理

GP工做負載管理概述

配置工做負載管理

建立資源隊列

分配資源隊列

檢查資源隊列狀態

11 裝載和卸載數據

GP裝載命令概述

裝載數據到GP

從GP卸載數據

格式化數據文件

12 備份恢復

串行備份和恢復

並行恢復和恢復

13 性能調優

如何進行調優

常見的性能問題

14 GP系統配置參數

關於GP的Master參數與本地化參數

設置配置參數

配置參數種類

15 開啓高可用性

GP高可用概述

開啓GP的Mirror

獲知Segment什麼時候失敗

恢復失敗的Segment

恢復失敗的Master

16 GP MapReduce

MapReduce基礎

GP MapReduce編程

MapReduce做業執行和故障診斷

第二部分 Hadoop分佈式平臺（55課時）

1 Hadoop的起源和體系

Hadoop思想起源：Google

Hadoop子項目家族

Hadoop的架構

2 Hadoop的安裝與配置

準備和配置環境

三種運行模式

徹底分佈式模式安裝

3 HDFS-大數據存儲

HDFS概念與體系結構

HDFS的可靠性

HDFS文件操做

HDFS API

4 關於MapReduce

MapReduce編程模型

MapReduce的集羣行爲

MapReduce任務的優化

MapReduce工做機制

錯誤處理及做業調度機制

5 MapReduce應用開發

Hadoop Eclipse插件開發

數據篩選程序開發

倒排索引程序開發

6 Hadoop監控與管理

頁面監控

hadoop備份

7 HBase數據庫

Hbase體系結構

HBase shell

HBase API應用實例

HBase場景應用

HBase模式設計

8 Hive數據倉庫

Hive組件與體系架構

Hive安裝配置

Hive的服務接口

HiveQL經常使用操做

Hive的優化

Hive UDF編程

Hive綜合實戰

9 Pig數據分析平臺

Pig框架

Pig安裝配置

Pig的使用

Pig的數據模型

經常使用Pig Latin操做

Pig UDF編程

Pig數據分析實戰

10 ZooKeeper分佈式服務框架

ZooKeeper工做原理

ZooKeeper設計目標

ZooKeeper的數據結構和組成

ZooKeeper的安裝配置

ZooKeeper命令行工具

ZooKeeper API

ZooKeeper實戰：Hadoop任務調度

11 Chukwa集羣監控系統

Chukwa的組成

Chukwa架構和設計

Chukwa安裝與配置

經常使用Chukwa命令

實現自定義數據處理

12 Hadoop商業應用案例

雲計算概念和特徵

雲計算服務模式和形態

Hadoop在雲計算的運用

京東商城

百度

阿里巴巴

騰訊

13 Greenplum Hadoop集羣

集成架構的特徵

集成架構的優點

配置gphdfs協議使用環境

使用HDFS外部表

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。