Hadoop大數據零基礎高端實戰培訓系列配文本挖掘項目

《Hadoop大數據零基礎高端實戰培訓系列配文本挖掘項目(七大亮點、十大目標)》 課程講師:迪倫 課程分類:大數據 適合人羣:初級 課時數量:230課時 用到技術:部署Hadoop集羣 涉及項目:京東商城、百度、阿里巴巴 諮詢QQ:1609173918mysql

下載地址: 連接:http://pan.baidu.com/share/link?shareid=3299239734&uk=3289559542 密碼:8tkb程序員

第一階段:Hadoop基礎篇(50課時) - 千里之行,始於足下(贈送課程)算法

課程1、基於Linux操做系統平臺下的Java語言開發(20課時)sql

本套課程主要介紹了Linux系統下的Java環境搭建及最基礎的Java語法知識。學習Linux操做系統下Java語言開發的好處 好處一:再也不束縛在Windows操做系統下,開闊眼界。 好處二:熟練Linux操做系統的指令,走出「指指點點」的開發,成爲真正的代碼程序員。 好處三:增長本身的競爭實力,爲本身應聘時加上濃濃的一筆。shell

第一講 安裝虛擬機以及Linux操做系統 第二講 Linux桌面系統 第三講 Linux文件和目錄管理 第四講 VIM的使用(上) 第五講 VIM的使用(下) 第六講 Linux終端經常使用命令 第七講 Java開發環境的搭建 第八講 Java語言基礎(上) 第九講 Java語言基礎(下) 第十講 Java中IO詳解(上) 第十一講 Java中IO詳解(下) 第十二講 Java中容器詳解(上) 第十三講 Java中容器詳解(下) 第十四講 Java中Swing詳解(上) 第十五講 Java中Swing詳解(下) 第十六講 JSP開發環境的搭建 第十七講 JSP語法詳解(上) 第十八講 JSP語法詳解(下) 第十九講 開發用戶登錄,用戶註冊系統數據庫

課程2、零基礎實戰Mysql數據庫應用開發(30課時) 經過本課程的學習,用戶可在最短的時間內掌握MySQL的安裝配置與使用、MySQL DML特性的高級用法、MySQL常見內置函數的高級用法、MySQL中存儲過程寫法、視圖、用戶自定義函數、觸發器等高級用法、MySQL中的事務功能。並瞭解圖形化管理工具的使用、字符集及亂碼處理、MySQL的數據備份與還原技術、MySQL的安全技術、MySQL的系統管理、MySQL集羣的配置。 第一部分:安裝配置MySQL數據庫(1課時) 第二部分:圖形化管理工具(2課時) 第三部分:存儲引擎及數據庫基本操做(2課時) 第四部分:字符集及亂碼處理(2課時) 第五部分:MySQL DML特性的高級用法(5課時) 第六部分:MySQL內置函數(1課時) 第七部分: MySQL 中的存儲過程、觸發器高級應用(2課時) 第八部分:MySQL中視圖與事務高級應用(3課時) 第九部分:MySQL中索引的使用(1課時) 第十部分:MySQL數據庫的安全技術(1課時) 第十一部分:系統管理(1課時) 第十二部分:MySQL備份和還原操做(1課時) 第十三部分:性能優化(1課時) 第十四部分:集羣的配置及應用(1課時)編程

第二階段:Hadoop全面深刻篇(96課時) - 十年寒窗苦,成名天下知安全

課程1、 Greenplum 分佈式數據庫開發入門到精通(41課時)性能優化

Greenplum的架構採用了MPP(大規模並行處理)。在 MPP 系統中,每一個 SMP 節點也能夠運行本身的操做系統、數據庫等,它的特色主要就是查詢速度快,數據裝載速度快,批量DML處理快。並且性能能夠隨着硬件的添加,呈線性增長,擁有很是良好的可擴展性。所以,它主要適用於面向分析的應用。好比構建企業級ODS/EDW,或者數據集市等等。本課程全面深刻地介紹了Greenplum數據庫,包括架構特性、部署、管理、開發和調優等,由淺入深,理論結合實戰,讓同窗全面完全掌握這把大數據利劍。數據結構

1、 Greenplum架構 什麼是Greenplum Greenplum體系結構 Greenplum高可用性架構

2、安裝Greenplum 配置環境 安裝並初始化GPDB系統 啓停數據庫 配置GP系統

3、分佈式數據庫存儲 數據是如何存儲的 分佈策略

4、 GBDB查詢處理 查詢命令的執行 SQL查詢處理機制 並行查詢計劃 5、角色權限及客戶端認證管理 客戶端認證 管理用戶和組

6、客戶端接口和程序 pgAdmin III PSQL

7、定義數據庫對象 建立並管理數據庫 建立並管理表空間 建立並管理模式 建立並管理表 分區表 數據分佈與分區 壓縮存儲與行列存儲 序列、索引與視圖

8、管理數據 插入、更新、刪除記錄 事務管理 空間回收和統計

9、查詢數據 定義查詢 使用函數和運算符 查詢分析

10、工做負載及資源管理 GP工做負載管理概述 配置工做負載管理 建立資源隊列 分配資源隊列 檢查資源隊列狀態

11、裝載和卸載數據 GP裝載命令概述 裝載數據到GP 從GP卸載數據 格式化數據文件

12、備份恢復 串行備份和恢復 並行恢復和恢復 十3、性能調優 如何進行調優 常見的性能問題

十4、GP系統配置參數 關於GP的Master參數與本地化參數 設置配置參數 配置參數種類

十5、開啓高可用性 GP高可用概述 開啓GP的Mirror 獲知Segment什麼時候失敗 恢復失敗的Segment 恢復失敗的Master

十6、GP MapReduce MapReduce基礎 GP MapReduce編程 MapReduce做業執行和故障診斷

課程2、全面深刻Greenplum Hadoop大數據分析平臺(55課時)

大量的半結構化和非結構化信息沒法管理和存儲,大數據增加速度驚人,每一年以幾何級數速度增加,須要有專業化的解決方案應對大數據挑戰。EMC收購了Greenplum以後,推出的針對Hadoop的Greenplum的數據庫軟件。 採用Greenplum HD技術管理半結構化和非結構化信息,總體TCO更低,除了進行有效存儲和管理,能夠經過MapReduce技術進行並行的分析和挖掘,把大量的數據存儲變成有價值的數據資產。本課程深刻闡述了Hadoop的架構原理,Hadoop總體技術架構,包括HBase、Hive、Pig、ZooKeeper、Chukwa等實戰運用。另外還介紹了雲計算的基礎知識和Hadoop在雲計算領域的運用,以及剖析了Hadoop在各個互聯網巨頭商業環境的運用。

1、 Hadoop的起源和體系 Hadoop思想起源:Google Hadoop子項目家族 Hadoop的架構

2、 Hadoop的安裝與配置 準備和配置環境 三種運行模式 徹底分佈式模式安裝

3、 HDFS-大數據存儲 HDFS概念與體系結構 HDFS的可靠性 HDFS文件操做 HDFS API

4、 關於MapReduce MapReduce編程模型 MapReduce的集羣行爲 MapReduce任務的優化 MapReduce工做機制 錯誤處理及做業調度機制

5、 MapReduce應用開發 Hadoop Eclipse插件開發 數據篩選程序開發 倒排索引程序開發

6、 Hadoop監控與管理 頁面監控 hadoop備份

7、 HBase數據庫 Hbase體系結構 HBase shell HBase API應用實例 HBase場景應用 HBase模式設計

8、 Hive數據倉庫 Hive組件與體系架構 Hive安裝配置 Hive的服務接口 HiveQL經常使用操做 Hive的優化 Hive UDF編程 Hive綜合實戰

9、 Pig數據分析平臺 Pig框架 Pig安裝配置 Pig的使用 Pig的數據模型 經常使用Pig Latin操做 Pig UDF編程 Pig數據分析實戰

10、ZooKeeper分佈式服務框架 ZooKeeper工做原理 ooKeeper設計目標 ZooKeeper的數據結構和組成 ZooKeeper的安裝配置 ZooKeeper命令行工具 ZooKeeper API ZooKeeper實戰:Hadoop任務調度

11、 Chukwa集羣監控系統 Chukwa的組成 Chukwa架構和設計 Chukwa安裝與配置 經常使用Chukwa命令 實現自定義數據處理

12、 Hadoop商業應用案例 雲計算概念和特徵 雲計算服務模式和形態 Hadoop在雲計算的運用 京東商城 百度 阿里巴巴 騰訊

十3、 Greenplum Hadoop集羣 集成架構的特徵 集成架構的優點 配置gphdfs協議使用環境 使用HDFS外部表

第三階段:Hadoop高階應用篇(81課時) - 會當臨絕頂,一覽衆山小

課程一:Hadoop2.0/YARN深刻淺出(21課時) 詳細講解了Hadoop 2.0架構、部署以及YARN,並講解了運行在YARN上主要的計算框架,包括Spark、Storm和Tez

1、Hadoop 2.0(6課時) Hadoop 2.0產生背景 Hadoop 2.0基本構成

2、HDFS 2.0 MapReduce 2.0 Hadoop 2.0安裝配置 集羣測試

3、YARN資源管理系統(4課時) YARN產生背景 YARN基本設計思想 YARN基本架構 YARN工做流程 YARN通訊協議 YARN容錯 YARN資源調度機制

4、YARN支持的計算框架(Storm,Tez,Spark)(11課時) 以YARN爲核心的生態系統 Storm基本概念 Storm流式計算框架 基於YARN的Storm架構 YARN-Storm部署 Storm On YARN服務 Apache Tez介紹 Tez特色 Tez數據處理引擎 DAGAppMaster實現 Tez優化機制 Tez應用場景 Tez部署 什麼是Spark Spark生態系統 Spark的核心--RDD和Lineage RDD的存儲、容錯機制、內部設計及數據模型 Spark調度框架 Spark的分佈式部署方式 基於Mesos的Spark模式 基於YARN的Spark模式 Spark的獨立模式部署 Spark的YARN模式部署

課程二:MapReduce/Hbase進階提高(29課時) 本部份內容主要針對MapReduce和HBase的高階應用作深刻的講解和實戰演練

1、MapReduce多語言編程(5課時) MapReduce編程接口 Java編程接口實例解析 Hadoop Streaming實現方式 Hadoop Streaming編程實戰(C++,PHP,PYTHON) Hadoop Streaming原理剖析 Hadoop Pipes的編程實例 Hadoop Pipes的原理剖析

2、MapReduce高階實現(14課時) 複雜的MapReduce應用 K-means聚類、貝葉斯分類等 工做流編程實例及原理剖析 JobControl、ChainMapper/ChainReducer Hadoop工做流引擎 經常使用MapReduce優化技巧 配置多個reducer 設置Stream的處理格式 控制分片的大小 避免分片 輸入格式:文本輸入、多種類型輸入 輸出控制:多個輸出、延遲輸出 實戰:數據分區 ? MapReduce高級特性 計數器、內置計數器 實例:用戶自定義計數器 MapReduce部分排序的實現 實例:MapReduce全排序 Terasort算法分析 實例:MapReduce實現二次排序 鏈接、Map端鏈接的實現 實例:Reduce端鏈接 鏈接類型、鏈接策略介紹 重分區鏈接框架的實現 複製鏈接框架的實現 實例:半鏈接 全局做業參數/數據文件傳遞

3、HBase編程實踐及案例分析(10課時) HBase基礎精講 HBase Java編程實例 HBase多語言編程 Thrift安裝、服務配置 HBase C++編程實例 HBase Python編程實例 HBase MapReduce編程基礎 實戰:HBase MapReduce編程 Hbase案例:OpenTSDB的實現 基於HBase的爬蟲調度庫 基於HBase的爬蟲索引庫 銀行人民幣查詢系統

課程三:Hadoop Sqoop/Flume/Avro實戰(14課時) Hadoop Sqoop、Flume、Avro重要子項目的技術實戰

1、Sqoop(6課時) Sqoop產生背景、基本 Sqoop1和Sqoop2架構及特色 Sqoop1安裝配置(版本1.4.4) Sqoop導入介紹 實戰:從mysql導入數據到HDFS 實戰:從mysql導入數據到Hive Sqoop導出介紹 實戰:將Hive數據導出到Mysql Sqoop與Hbase結合 Sqoop做業操做 Sqoop做業安全配置 Sqoop2安裝配置(版本1.99.3) Sqoop2使用綜合實戰

2、Flume日誌收集系統(7課時) Flume概念和特色 Flume OG架構、組成、特色、容錯機制設計 日誌收集系統綜合比較 Flume NG架構、核心概念 Flume OG的安裝 Flume OG的配置(Web端、Flume shell) Flume NG的安裝配置、測試 Flume NG模塊配置(Source、Channel、Sink)

3、Avro數據序列化系統(1課時) Avro介紹 Avro特性、主要做用 RPC使用Avro Avro與其餘序列化系統的區別

課程四:深刻淺出Hadoop Mahout數據挖掘實戰(17課時) 一、Mahout數據挖掘工具 二、Hadoop實現推薦系統的綜合實戰,涉及到MapReduce、Pig和Mahout的綜合實戰

1、Mahout數據挖掘工具(10課時) 數據挖掘概念、系統組成 數據挖掘經常使用方法及算法(迴歸分析、分類、聚類等) 數據挖掘分析工具 Mahout支持的算法 Mahout起源和特色 Mahout安裝、配置及測試 實戰:Mahout K-means聚類分析 Mahout實現Canopy算法 Mahout實現分類算法 實戰:Mahout邏輯迴歸分類預測 實戰:Mahout樸素貝葉斯分類 推薦系統的概念及分類 協同過濾推薦算法概念、分類及應用 實戰:實現基於Mahout的電影推薦系統

2、Hadoop綜合實戰-文本挖掘項目(7課時) 文本挖掘的概念及應用場景 項目背景 項目流程 中文分詞技術 庖丁分詞器的使用 MapReduce並行分詞程序的設計與實現 Pig劃分數據集 Mahout構建樸素貝葉斯文本分類器 模型應用-計算用戶偏好類別

相關文章
相關標籤/搜索