hadoop知識體系

目錄結構知識點仍是挺全的,能夠按照點學習。算法

1、Hadoop入門,瞭解什麼是Hadoop 2、分佈式文件系統HDFS,是數據庫管理員的基礎課程

一、Hadoop產生背景數據庫

二、Hadoop在大數據、雲計算中的位置和關係編程

三、國內外Hadoop應用案例介紹架構

四、國內Hadoop的就業狀況分析及課程大綱介紹負載均衡

五、分佈式系統概述框架

六、Hadoop生態圈以及各組成部分的簡介分佈式

七、Hadoop核心MapReduce例子說明函數

一、分佈式文件系統HDFS簡介oop

二、HDFS的系統組成介紹學習

三、HDFS的組成部分詳解

四、副本存放策略及路由規則

五、NameNode Federation

六、命令行接口

七、Java接口

八、客戶端與HDFS的數據流講解

九、HDFS的可用性(HA)

3、初級MapReduce,成爲Hadoop開發人員的基礎課程 4、高級MapReduce,高級Hadoop開發人員的關鍵課程

一、如何理解map、reduce計算模型

二、剖析僞分佈式下MapReduce做業的執行過程

三、Yarn模型

四、序列化

五、MapReduce的類型與格式

六、MapReduce開發環境搭建

七、MapReduce應用開發

八、更多示例講解,熟悉MapReduce算法原理

一、使用壓縮分隔減小輸入規模

二、利用Combiner減小中間數據

三、編寫Partitioner優化負載均衡

四、如何自定義排序規則

五、如何自定義分組規則

六、MapReduce優化

七、編程實戰

5、Hadoop集羣與管理,是數據庫管理員的高級課程 6、ZooKeeper基礎知識,構建分佈式系統的基礎框架

一、Hadoop集羣的搭建

二、Hadoop集羣的監控

三、Hadoop集羣的管理

四、集羣下運行MapReduce程序

一、ZooKeeper體現結構

二、ZooKeeper集羣的安裝

三、操做ZooKeeper

7、HBase基礎知識,面向列的實時分佈式數據庫 8、HBase集羣及其管理

一、HBase定義

二、HBase與RDBMS的對比

三、數據模型

四、系統架構

五、HBase上的MapReduce

六、表的設計

一、集羣的搭建過程講解

二、集羣的監控

三、集羣的管理

9、HBase客戶端 10、Pig基礎知識,進行Hadoop計算的另外一種框架

一、HBase Shell以及演示

二、Java客戶端以及代碼演示

一、Pig概述

二、安裝Pig

三、使用Pig完成手機流量統計業務

11、Hive,使用SQL進行計算的Hadoop框架 12、Sqoop,Hadoop與rdbms進行數據轉換的框架

一、數據倉庫基礎知識

二、Hive定義

三、Hive體系結構簡介

四、Hive集羣

五、客戶端簡介

六、HiveQL定義

七、HiveQL與SQL的比較

八、數據類型

九、表與表分區概念

十、表的操做與CLI客戶端演示

十一、數據導入與CLI客戶端演示

十二、查詢數據與CLI客戶端演示

1三、數據的鏈接與CLI客戶端演示

1四、用戶自定義函數(UDF)的開發與演示

一、配置Sqoop

二、使用Sqoop把數據從MySQL導入到HDFS中

三、使用Sqoop把數據從HDFS導出到MySQL中

十3、Storm

一、Storm基礎知識:包括Storm的基本概念和Storm應用
     場景,體系結構與基本原理,Storm和Hadoop的對比

二、Storm集羣搭建:詳細講述Storm集羣的安裝和安裝時
     常見問題

三、Storm組件介紹: spout、bolt、stream groupings等

四、Storm消息可靠性:消息失敗的重發

五、Hadoop 2.0和Storm的整合:Storm on YARN

六、Storm編程實戰

十4、論壇日誌分析項目

該項目的數據來自於某網站論壇的日誌,它是爲本課程量身定作的,很是適合咱們Hadoop課程學習。有的同窗以爲應該介紹更多項目,其實作過幾個項目後,就會發現項目的思路是相同的,只是業務不一樣而已。

你們寫過這個項目後,就對Hadoop的各個框架在項目中是如何使用的,以及Hadoop與JavaEE結合有一個比較清晰的認識與瞭解。

相關文章
相關標籤/搜索