基於Greenplum Hadoop分佈式平臺的大數據解決方案及商業應用案例剖析

   隨着雲計算、大數據迅速發展,亟需用hadoop解決大數據量高併發訪問的瓶頸。谷歌、淘寶、百度、京東等底層都應用hadoop。愈來愈多的企 業急需引入hadoop技術人才。因爲掌握Hadoop技術的開發人員並很少,直接致使了這幾年hadoop技術的薪水遠高於JavaEE及 Android程序員。java

   Hadoop入門薪資已經達到了 8K 以上,工做1年可達到 1.2W 以上,具備2-3年工做經驗的hadoop人才年薪能夠達到 30萬—50萬 linux

   通常須要大數據處理的公司基本上都是大公司,因此學習hadoop技術也是進大公司的捷徑!程序員

   本課程講師擁有多年Greenplum和Hadoop實戰經驗,課程注重實踐,原理剖析,實踐分享,讓學員能快速全面地掌握Greenplum操做和調優,以及Hadoop的搭建與運用實戰。sql

   課程實戰、實用、實際,總共 96 課時,系史上最全最深刻的講解Greenplum、Hadoop、雲計算相關領域的技能課程,北風僅以此課程獻給有志於從事大數據行業,追求高薪的有想法的程序員。shell

   課程亮點多多:數據庫

      亮點1、技術混搭編程

              Greenplum+Hadoop,讓你全面掌握玩轉大數據的倚天劍和屠龍刀,讓你學到不同的精彩,成爲不同的複合型               人才!數據結構

      亮點2、高成低也就架構

      亮點3、既注重技術基礎,手把手傳授技術,經過實操實戰的講授過程讓學員沉澱技術,打好牢固堅實的基礎;另外,也不                忘從行業、架構的高度,幫助你們擴寬視野,遊刃有餘。併發

      亮點4、注重實踐:原理剖析,實踐分享;讓學員能快速全面地掌握Greenplum操做和調優,以及Hadoop的搭建與運用實戰。

             實戰、實用、實際

      亮點5、 全面覆蓋了Greenplum完整知識體系,及關係型數據庫管理和調優思想;

      亮點6、課程涵蓋Hadoop生態系統中全部經常使用組件;

      亮點7、 學完此課程能夠得到IT行業高薪職業發展能力。

   GREENPLUM適用場景:
 
         Greenplum的架構採用了MPP(大規模並行處理)。在 MPP 系統中,每一個 SMP 節點也能夠運行本身的操做系統、數據庫等,它的特色主要就是查詢速度快,數據裝載速度快,批量DML處理快。並且性能能夠隨着硬件的添加,呈線性增長,擁有很是良好的可擴展性。所以,它主要適用於面向分析的應用。好比構建企業級ODS/EDW,或者數據集市等等。
 
 
       GREENPLUM的前景:
 
         GREENPLUM 誕生於2003年硅谷,2010/07 EMC收購了GREENPLUM,並把GREENPLUM做爲EMC面向分析雲的戰略核心產品,加以大力發展。該產品不只在國際市場發展很快,在國內市場發展也很快。最著名的案例就是阿里巴巴集團,通過多種產品的精心選型,最終選擇GREENPLUM做爲它們的數據倉庫平臺存放數百TB的業務數據去高效支持各類分析應用。正是因爲產品發展速度很快,可是在相關人才上存在很大缺口。
 
 
       Greenplum Hadoop大數據分析平臺:
 
         大量的半結構化和非結構化信息沒法管理和存儲,大數據增加速度驚人,每一年以幾何級數速度增加,須要有專業化的解決方案應對大數據挑戰。EMC收購了Greenplum以後,推出的針對Hadoop的Greenplum的數據庫軟件。採用Greenplum HD技術管理半結構化和非結構化信息,總體TCO更低,除了進行有效存儲和管理,能夠經過MapReduce技術進行並行的分析和挖掘,把大量的數據存儲變成有價值的數據資產。
 
 
       課程內容簡介:
  
         本課程分兩大部分:
            第一部分全面深刻地介紹了Greenplum數據庫,包括架構特性、部署、管理、開發和調優等,由淺入深,理論結合實戰,讓同窗全面完全掌握這把大數據利劍。
            第二部分深刻闡述了Hadoop的架構原理,Hadoop總體技術架構,包括HBase、Hive、Pig、ZooKeeper、Chukwa等實戰運用。另外還介紹了雲計算的基礎知識和Hadoop在雲計算領域的運用,以及剖析了Hadoop在各個互聯網巨頭商業環境的運用。
 
 
   本課程適合於有必定java基礎知識,對數據庫和sql語句有必定了解,熟練使用linux系統的技術人員,特別適合於想換工做或尋求高薪職業的人士。
 
 
   課程結束時,幫助學員實現以下目標:
      一、瞭解Greenplum和Hadoop的歷史及目前發展的現狀、以及它們的技術特色,從而把握分佈式計算框架及將來發展方向,在大數據時代能爲企業的技術選型及架構設計提供決策參考。
      二、深刻理解Greenplum的技術核心和管理操做,以此爲基礎,進而掌握MPP架構數據庫的使用和調優的思想。
      三、全面掌握Hadoop的架構原理和使用場景,並經過貫穿課程的項目進行實戰鍛鍊,從而熟練使用Hadoop進行MapReduce程序開發。
      四、深刻理解Hadoop總體技術架構,包括HBase、Hive、Pig、ZooKeeper、Chukwa等,對Hadoop運做機制有清晰全面的認識,能夠獨立規劃及部署生產環境的Hadoop集羣,掌握Hadoop基本運維思路和方法,對Hadoop集羣進行管理和優化。
      五、理解什麼是雲計算和Hadoop在雲計算領域的運用,以及理解Hadoop在各個互聯網巨頭商業環境的運用。
 
 
 
 
       第一部分 Greenplum 分佈式數據庫基礎(41課時)
 
          1 Greenplum架構
            什麼是Greenplum
            Greenplum體系結構
            Greenplum高可用性架構
 
          2 安裝Greenplum
            配置環境
            安裝並初始化GPDB系統
            啓停數據庫
            配置GP系統
 
          3 分佈式數據庫存儲
            數據是如何存儲的
            分佈策略
 
         4  GBDB查詢處理
            查詢命令的執行
            SQL查詢處理機制
            並行查詢計劃
 
          5 角色權限及客戶端認證管理
            客戶端認證
            管理用戶和組
 
          6 客戶端接口和程序
            pgAdmin III
            PSQL
 
          7 定義數據庫對象
            建立並管理數據庫
            建立並管理表空間
            建立並管理模式
            建立並管理表
            分區表
            數據分佈與分區
            壓縮存儲與行列存儲
            序列、索引與視圖
 
          8 管理數據
            插入、更新、刪除記錄
            事務管理
            空間回收和統計
 
          9 查詢數據
            定義查詢
            使用函數和運算符
            查詢分析
 
          10 工做負載及 資源 管理
            GP工做負載管理概述
            配置工做負載管理
            建立資源隊列
            分配資源隊列
            檢查資源隊列狀態
 
          11 裝載和卸載數據
            GP裝載命令概述
            裝載數據到GP
            從GP卸載數據
            格式化數據文件
 
          12 備份恢復
            串行備份和恢復
            並行恢復和恢復
 
          13 性能調優
            如何進行調優
            常見的性能問題
          14 GP系統配置參數
            關於GP的Master參數與本地化參數
            設置配置參數
            配置參數種類
 
          15 開啓高可用性
            GP高可用概述
            開啓GP的Mirror
            獲知Segment什麼時候失敗
            恢復失敗的Segment
            恢復失敗的Master
 
          16 GP MapReduce
            MapReduce基礎
            GP MapReduce編程
            MapReduce做業執行和故障診斷
 
 
       第二部分 Hadoop分佈式平臺(55課時)
 
          1 Hadoop的起源和體系
            Hadoop思想起源:Google
            Hadoop子項目家族
            Hadoop的架構
 
          2 Hadoop的安裝與配置
            準備和配置環境
            三種運行模式
            徹底分佈式模式安裝
 
          3 HDFS-大數據存儲
            HDFS概念與體系結構
            HDFS的可靠性
            HDFS文件操做
            HDFS API
 
          4 關於MapReduce
            MapReduce編程模型
            MapReduce的集羣行爲
            MapReduce任務的優化
            MapReduce工做機制
            錯誤處理及做業調度機制
 
          5 MapReduce應用開發
            Hadoop Eclipse插件開發
            數據篩選程序開發
            倒排索引程序開發
 
          6 Hadoop監控與管理
            頁面監控
            hadoop備份
 
          7 HBase數據庫
            Hbase體系結構
            HBase shell
            HBase API應用實例
            HBase場景應用
            HBase模式設計
 
          8 Hive數據倉庫
            Hive組件與體系架構
            Hive安裝配置
            Hive的服務接口
            HiveQL經常使用操做
            Hive的優化
            Hive UDF編程
            Hive綜合實戰
 
          9 Pig數據分析平臺
            Pig框架
            Pig安裝配置
            Pig的使用
            Pig的數據模型
            經常使用Pig Latin操做
            Pig UDF編程
            Pig數據分析實戰
 
          10 ZooKeeper分佈式服務框架
            ZooKeeper工做原理
            ZooKeeper設計目標
            ZooKeeper的數據結構和組成
            ZooKeeper的安裝配置
            ZooKeeper命令行工具
            ZooKeeper API
            ZooKeeper實戰:Hadoop任務調度
 
          11 Chukwa集羣監控系統
            Chukwa的組成
            Chukwa架構和設計
            Chukwa安裝與配置
            經常使用Chukwa命令
            實現自定義數據處理
 
          12 Hadoop商業應用案例
            雲計算概念和特徵
            雲計算服務模式和形態
            Hadoop在雲計算的運用
            京東商城
            百度
            阿里巴巴
            騰訊
 
          13 Greenplum Hadoop集羣
            集成架構的特徵
            集成架構的優點
            配置gphdfs協議使用環境
            使用HDFS外部表
 
 
 
 
相關文章
相關標籤/搜索