思數雲hadoop目錄

時間 2019-11-11

標籤 hadoop 目錄欄目 Hadoop 简体版

原文原文鏈接

全文檢索、數據分析挖掘、推薦系統、廣告系統、圖像識別、海量存儲、快速查詢java

l Hadoop介紹 n Hadoop來源與歷史 n Hadoop版本 n Hadoop開源與商業 l HDFS系統架構 n NameNode功能與原理 n DataNode功能與原理 n SecondaryNameNode功能與原理 n HDFS讀取寫入流程 n 理解HDFS Block l Hadoop權限與安全	l Hadoop運行模式介紹 l 實驗： n 搭建單機版、僞分佈式、分佈式集羣 n Hadoop命令使用 n 運行MapReduce Job l Hadoop運維案例介紹 l HDFS配置文件說明
次日	l 集羣規劃 l 集羣監控、告警 l 集羣管理 l 集羣配置最佳實踐	l MapReduce簡介 l JobTracker、TaskTracker功能 l Hadoop HDFS API介紹 l Hadoop WebHDFS API介紹 l 實驗 n 使用Hadoop HDFS API
第三天	l MapReduce流程詳解 l MapReduce開發詳解 l MapReduce開發最佳實踐 l MapReduce 調優 l Hadoop Streaming開發詳解 l Pig語言詳解	l MapReduce系統參數說明 l 實驗： n 使用Java開發MapReduce程序 n 使用python開發MapReduce程序 n Pig開發MapReduce程序
第四天	l HBase簡介和架構 HBase基本概念 HBase應用場景 HBase架構和核心模塊介紹 HBase存儲邏輯結構介紹 l HBase核心知識點基本方法：Get/Put/Scan/Delete 列式存儲核心：LSM 日誌系統：WAL 底層存儲：HFile 複製、備份：Replication 過渡期：RIT 分裂、合併：Split/Compact 負載均衡：Load Balance	l HBase高級應用簡單介紹批量記載：bulk load 監控系統：OpenTSDB 主鍵設計：key design 二級索引：secondary index 協處理器：Coprocessors HBase安裝、部署、啓動 l 【動手操做】集羣下安裝部署HBase 啓動HBase，啓動順序測試啓動 HBase經常使用接口、金融、政府案例 l 【小組討論】 thrift接口案例（需求剖析、架構設計） l Hive使用 hive架構，一些特性 hive hadoop 配置 hive 配置文件 client工具介紹 hive hql介紹

1、Hadoop入門，瞭解什麼是hadooppython

一、 Hadoop產生背景mysql

二、 Hadoop在大數據、雲計算中的位置和關係linux

三、國內外Hadoop應用案例介紹程序員

四、國內Hadoop的就業狀況分析及課程大綱介紹算法

五、分佈式系統概述sql

六、 Hadoop生態圈以及各組成部分的簡介數據庫

七、 Hadoop核心MapReduce例子說明編程

2、分佈式文件系統HDFS，是數據庫管理員的基礎課程安全

一、分佈式文件系統DFS簡介

二、 HDFS的系統組成介紹

三、 HDFS的組成部分詳解

四、副本存放策略及路由規則

五、 NameNode Federation

六、命令行接口

七、 Java接口

八、客戶端與HDFS的數據流講解

九、 HDFS的可用性（HA）

3、初級MapReduce，成爲Hadoop開發人員的基礎課程

一、如何理解map、reduce計算模型

二、剖析僞分佈式下MapReduce做業的執行過程

三、 Yarn模型

四、序列化

五、 MapReduce的類型與格式

六、 MapReduce開發環境搭建

七、 MapReduce應用開發

八、更多示例講解，熟悉MapReduce算法原理

4、高級MapReduce，高級Hadoop開發人員的關鍵課程

一、使用壓縮分隔減小輸入規模

二、利用Combiner減小中間數據

三、編寫Partitioner優化負載均衡

四、如何自定義排序規則

五、如何自定義分組規則

六、 MapReduce優化

七、編程實戰

5、Hadoop集羣與管理，是數據庫管理員的高級課程

一、 Hadoop集羣的搭建

二、 Hadoop集羣的監控

三、 Hadoop集羣的管理

四、集羣下運行MapReduce程序

6、ZooKeeper基礎知識，構建分佈式系統的基礎框架

一、ZooKeeper體現結構

二、ZooKeeper集羣的安裝

三、操做ZooKeeper

7、HBase基礎知識，面向列的實時分佈式數據庫

一、 HBase定義

二、 HBase與RDBMS的對比

三、數據模型

四、系統架構

五、HBase上的MapReduce

六、表的設計

8、HBase集羣及其管理

一、集羣的搭建過程講解

二、集羣的監控

三、集羣的管理

9、HBase客戶端

一、 HBase Shell以及演示

二、Java客戶端以及代碼演示

10、Pig基礎知識，進行hadoop計算的另外一種框架

一、 Pig概述

二、安裝Pig

三、使用Pig完成手機流量統計業務

11、Hive，使用sql進行計算的hadoop框架

一、數據倉庫基礎知識

二、 Hive定義

三、 Hive體系結構簡介

四、 Hive集羣

五、客戶端簡介

六、 HiveQL定義

七、 HiveQL與SQL的比較

八、數據類型

九、表與表分區概念

十、表的操做與CLI客戶端演示

十一、數據導入與CLI客戶端演示

十二、查詢數據與CLI客戶端演示

1三、數據的鏈接與CLI客戶端演示

1四、用戶自定義函數（UDF）的開發與演示

12、Sqoop，hadoop與rdbms進行數據轉換的框架

一、配置Sqoop

二、使用Sqoop把數據從mysql導入到HDFS中

三、使用Sqoop把數據從HDFS導出到mysql中

十3、大數據實戰

互聯網大數據收集、存儲、數據使用完整架構和操做

Hadoop背景介紹	HDFS使用
Hadoop生態系統概覽	HDFS命令行工具
Hadoop分佈式文件系統(HDFS)	啓動、中止HDFS服務
什麼是HDFS	如何查看HDFS日誌
HDFS設計目標	查看HDFS Web控制檯
HDFS系統特色	HDFS配置參數
HDFS工做原理	上機開發環境介紹
HDFS服務進程	HDFS開發
	Java API詳解
	FuseHDFS
	WebHDFS Restful API
	上機練習
次日上午（9:00-12:00）	次日下午（13:00-16:00）
MapReduce分佈式計算框架	MapReduce示例程序解析
什麼是MapReduce	MapReduce框架類庫介紹
MapReduce服務	MapReduce實戰，你的第一個MapReduce項目
MapReduce工做機制	項目需求簡述
MapReduce調度管理	項目設計討論
MapReduce參數設置	項目僞代碼分析
啓動、中止MapReduce服務	項目實現，上機練習
如何查看MapReduce日誌
查看MapReduce Web控制檯
第三天上午（9:00-12:00）	第三天下午（13:00-16:00）
MapReduce進階實戰	如何用其它語言開發MapReduce應用
項目性能優化	MapReduce經常使用算法（Sort、Index、Join、IF-IDF等）介紹
上機練習	Hadoop生態系統介紹
項目結果分類彙總	HBase入門
上機練習	利用Oozie對MapReduce任務進行調度
項目結果排序	利用Flume NG 和 Sqoop與各類數據源對接
上機練習	利用Hive和Pig來簡化MapReduce的開發
	ZooKeeper介紹

Hadoop背景介紹	HHDFS實戰
Hadoop生態系統概覽	Hadoop安裝
Hadoop分佈式文件系統(HDFS)	HDFS命令行工具
什麼是HDFS	啓動、中止HDFS服務
HDFS設計目標	如何查看HDFS日誌
HDFS系統特色	查看HDFS Web控制檯
HDFS工做原理	HDFS配置參數
HDFS服務進程
次日上午（9:00-12:00)	次日下午（13:00-16:00）
MapReduce分佈式計算框架	集羣規劃
什麼是MapReduce	系統及硬件推薦配置
MapReduce服務	集羣性能評估
MapReduce工做機制	集羣維護與管理
MapReduce調度管理	查看集羣狀態
上機實驗	上機實驗
運行MapReduce任務	模擬集羣失效
MapReduce參數設置	上機實驗
啓動、中止MapReduce服務	添加刪除節點
如何查看MapReduce日誌	數據平衡
查看MapReduce Web控制檯	元數據備份
	文件數據跨集羣拷貝
	集羣升級
	Ganglia（運維工具）
	Ganglia簡介
	Ganglia與Hadoop的集成
	Hadoop中可監控的項目介紹
	Hadoop生態系統介紹

hive

Hive

u Hive概念

u Hive架構原理

u 如何利用Hive用戶接口提交做業

u Hive主要配置詳解

u HiveQL語法講解及使用

u 編寫UDF及UDAF、UDTF函數

u Hive與HBase的整合

u HiveQL優化

u實際案例講解

u 目標：掌握HQL語法及調優方法

u 實驗：使用HQL語句和自定義函數實現簡單和複雜的數據統計

hbase:

u HBase簡介

u HBase部署、配置

u 客戶端API:管理功能

u 客戶端API:CRUD

u HBase經常使用命令

u HBase交互方式

u HBase架構

u 過濾器

u 協處理器

u 集羣管理和監控

u 性能優化

u HBase運維管理

u HBase發展趨勢

u 目標：掌握HBase主要功能，熟練使用API開發應用程序，掌握集羣運維方法

u 實驗：

u 部署HBase集羣

u 經過Java程序管理表

u 經過Java程序增刪改查數據

u 編寫過濾器精細控制數據

u 編寫2種協處理器程序

u HBase表管理

u HBase Region轉移和備份

u Split&Compact策略

u regionserver平常維護

u master平常維護

zookeeper:

ZooKeeper

u 概念介紹和基本原理

u 集羣安裝部署

u Zookeeper Server角色

u Zookeeper Server選舉、同步和工做流程

u Leader的工做流程

u Follower的工做流程

u Zookeeper的擴展

u Zookeeper的應用場景

u Zookeeper性能調優

u 數據一致性與Paxos算法

u 目標：瞭解ZooKeeper在Hadoop系統中的做用，掌握基本運維知識

u 實驗：搭建ZooKeeper集羣

flume:

u Flume簡介

u Flume架構設計

u Flume原理及常見配置

u Flume部署、安裝、配置

u Flume經常使用Source、Sink、Decorator

u Flume經常使用命令

u Flume與Hadoop、HBase集成

u 編寫Source、Sink、Decorator插件

u 目標：掌握Flume Agent和Collector配置

spark:

Spark 是一種與 Hadoop 類似的開源集羣計算環境，可是二者之間還存在一些不一樣之處，這些有用的不一樣之處使 Spark 在某些工做負載方面表現得更加優越，換句話說，Spark 啓用了內存分佈數據集，除了可以提供交互式查詢外，它還能夠優化迭代工做負載。
Spark 是在 Scala 語言中實現的，它將 Scala 用做其應用程序框架。與 Hadoop 不一樣，Spark 和 Scala 可以緊密集成，其中的 Scala 能夠像操做本地集合對象同樣輕鬆地操做分佈式數據集。儘管建立 Spark 是爲了支持分佈式數據集上的迭代做業，可是實際上它是對 Hadoop 的補充，能夠在 Hadoo 文件系統中並行運行。
經過名爲 Mesos 的第三方集羣框架能夠支持此行爲。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發，可用來構建大型的、低延遲的數據分析應用程序。

課程	技術原理	動手操做
Spark	Spark的簡介 Spark的原理 Spark與hadoop的比較 Spark安裝 Mesos介紹 Mesos安裝 Spark生態系統介紹 Spark核心概念 Spark語言學習 Spark語言學習 Spark案例實戰	實驗：安裝使用

storm:

Storm是Twitter開源的一個相似於Hadoop的實時數據處理框架（原來是由BackType開發，後BackType被Twitter收購，將Storm做爲Twitter的實時數據分析）。實時數據處理的應用場景很普遍。這種高可拓展性，能處理高頻數據和大規模數據的實時流計算解決方案將被應用於實時搜索，高頻交易和社交網絡上。而流計算並非最近的熱點，金融機構的交易系統正是一個典型的流計算處理系統，它對系統的實時性和一致性有很高要求。

twitter列舉了storm的三大做用領域：

1）信息流處理（Stream Processing）

Storm能夠用來實時處理新數據和更新數據庫，兼具容錯性和可擴展性。

2）連續計算（Continuous Computation）

Storm能夠進行連續查詢並把結果即時反饋給客戶，好比將Twitter上的熱門話題發送到客戶端。

3）分佈式遠程過程調用（Distributed RPC）

Storm能夠用來並行處理密集查詢，Storm的拓撲結構（後文會介紹）是一個等待調用信息的分佈函數，當它收到一條調用信息後，會對查詢進行計算，並返回查詢結果。

機器學習概述	數據處理統計分析數據挖掘模型預測結果呈現
k-近鄰算法
決策樹
基於機率論的分類方法：樸素貝葉斯
Logisstic迴歸
支持向量機
利用AdaBoost元算法提升分類性能
預測數值型數據：迴歸
樹迴歸
利用k-均值聚類算法對未標註數據分組
使用Apriori算法進行關聯分析
使用FP-growth算法來高效發現頻繁項集
利用PCA來簡化數據
利用SVD來簡化數據
大數據與MapReduce

課程	技術原理	動手操做
Storm	Storm簡介 Storm安裝部署 Storm架構及工做原理詳解命令詳解二次開發編寫維護管理案例

pig:

Pig是一個基於Hadoop的大規模數據分析平臺，它提供的SQL-LIKE語言叫Pig Latin，該語言的編譯器會把類SQL的數據分析請求轉換爲一系列通過優化處理的MapReduce運算。Pig爲複雜的海量數據並行計算提供了一個簡單的操做和編程接口。

課程	技術原理	動手操做
Pig	u Pig簡介 u 安裝和運行Pig u Pig Latin詳解 u 命令行使用以及配置選項介紹

電信行業:

第一天	l 電信業大數據概述 n 電信業大數據現狀（聯通、移動、電信）和挑戰 n 電信業大數據解決方案 l Hadoop介紹 n Hadoop來源與歷史 n Hadoop版本 n Hadoop開源與商業 l HDFS系統架構 n NameNode功能與原理 n DataNode功能與原理 n SecondaryNameNode功能與原理 n HDFS讀取寫入流程 n 理解HDFS Block l Hadoop權限與安全	l Hadoop運行模式介紹 l 實驗： n 搭建單機版、僞分佈式、分佈式集羣 n Hadoop命令使用 n 運行MapReduce Job l Hadoop運維案例介紹 l HDFS配置文件說明
次日	l 集羣規劃 l 集羣監控、告警 l 集羣管理 l 集羣配置最佳實踐	l MapReduce簡介 l JobTracker、TaskTracker功能 l Hadoop HDFS API介紹 l Hadoop WebHDFS API介紹 l 實驗 n 使用Hadoop HDFS API
第三天	l MapReduce流程詳解 l MapReduce開發詳解 l MapReduce開發最佳實踐 l MapReduce 調優 l Hadoop Streaming開發詳解 l Pig語言詳解	l MapReduce系統參數說明 l 實驗： n 使用Java開發MapReduce程序 n 使用python開發MapReduce程序 n Pig開發MapReduce程序
第四天	l HBase簡介和架構 HBase基本概念 HBase應用場景 HBase架構和核心模塊介紹 HBase存儲邏輯結構介紹 l HBase核心知識點基本方法：Get/Put/Scan/Delete 列式存儲核心：LSM 日誌系統：WAL 底層存儲：HFile 複製、備份：Replication 過渡期：RIT 分裂、合併：Split/Compact 負載均衡：Load Balance l 電信行業應用案例案例1 案例2	l HBase高級應用簡單介紹批量記載：bulk load 監控系統：OpenTSDB 主鍵設計：key design 二級索引：secondary index 協處理器：Coprocessors HBase安裝、部署、啓動 l 【動手操做】集羣下安裝部署HBase 啓動HBase，啓動順序測試啓動 HBase經常使用接口、金融、政府案例 l 【小組討論】 thrift接口案例（需求剖析、架構設計） l Hive使用 hive架構，一些特性 hive hadoop 配置 hive 配置文件 client工具介紹 hive hql介紹

大數據技術高薪就業班

培訓時長：

8天，推薦就業詳情參見 www.bihadoop.com

課程目標：

一、瞭解Hadoop的歷史及目前發展的現狀、以及Hadoop的技術特色，從而把握分佈式計算框架及將來發展方向，在大數據時代能爲企業的技術選型及架構設計提供決策參考。

二、全面掌握Hadoop的架構原理和使用場景，並經過貫穿課程的項目進行實戰鍛鍊，從而熟練使用Hadoop進行MapReduce程序開發。課程還涵蓋了分佈式計算領域的經常使用算法介紹，幫助學員爲企業在利用大數據方面體現自身價值。

三、深刻理解Hadoop技術架構,對Hadoop運做機制有清晰全面的認識，能夠獨立規劃及部署生產環境的Hadoop集羣，掌握Hadoop基本運維思路和方法，對Hadoop集羣進行管理和優化。

招生對象：

本課程適合於有必定java基礎知識，對數據庫和sql語句有必定了解，熟練使用linux系統的學生，特別適合於大專院校計算機專業的學生，開發基礎薄弱的未就業人士以及在職程序員(無Java和數據庫基礎學生，須要增長前置課程，2個月，諮詢客服）。

課程安排

1、Hadoop入門，瞭解什麼是hadoop	一、 Hadoop產生背景二、 Hadoop在大數據、雲計算中的位置和關係三、國內外Hadoop應用案例介紹四、國內Hadoop的就業狀況分析及課程大綱介紹五、分佈式系統概述六、 Hadoop生態圈以及各組成部分的簡介七、 Hadoop核心MapReduce例子說明
2、分佈式文件系統HDFS，是數據庫管理員的基礎課程	一、分佈式文件系統DFS簡介二、 HDFS的系統組成介紹三、 HDFS的組成部分詳解四、副本存放策略及路由規則五、 NameNode Federation 六、命令行接口七、 Java接口八、客戶端與HDFS的數據流講解九、 HDFS的可用性（HA）
3、初級MapReduce，成爲Hadoop開發人員的基礎課程	一、如何理解map、reduce計算模型二、剖析僞分佈式下MapReduce做業的執行過程三、 Yarn模型四、序列化五、 MapReduce的類型與格式六、 MapReduce開發環境搭建七、 MapReduce應用開發八、更多示例講解，熟悉MapReduce算法原理
4、高級MapReduce，高級Hadoop開發人員的關鍵課程	一、使用壓縮分隔減小輸入規模二、利用Combiner減小中間數據三、編寫Partitioner優化負載均衡四、如何自定義排序規則五、如何自定義分組規則六、 MapReduce優化七、編程實戰
5、Hadoop集羣與管理，是數據庫管理員的高級課程	一、 Hadoop集羣的搭建二、 Hadoop集羣的監控三、 Hadoop集羣的管理四、集羣下運行MapReduce程序
6、ZooKeeper基礎知識，構建分佈式系統的基礎框架	一、ZooKeeper體現結構二、ZooKeeper集羣的安裝三、操做ZooKeeper
7、HBase基礎知識，面向列的實時分佈式數據庫	一、 HBase定義二、 HBase與RDBMS的對比三、數據模型四、系統架構五、HBase上的MapReduce 六、表的設計
8、HBase集羣及其管理	一、集羣的搭建過程講解二、集羣的監控三、集羣的管理
9、HBase客戶端	一、 HBase Shell以及演示二、Java客戶端以及代碼演示
10、Pig基礎知識，進行hadoop計算的另外一種框架	一、 Pig概述二、安裝Pig 三、使用Pig完成手機流量統計業務
11、Hive，使用sql進行計算的hadoop框架	一、數據倉庫基礎知識二、 Hive定義三、 Hive體系結構簡介四、 Hive集羣五、客戶端簡介六、 HiveQL定義七、 HiveQL與SQL的比較八、數據類型九、表與表分區概念十、表的操做與CLI客戶端演示十一、數據導入與CLI客戶端演示十二、查詢數據與CLI客戶端演示 1三、數據的鏈接與CLI客戶端演示 1四、用戶自定義函數（UDF）的開發與演示
12、Sqoop，hadoop與rdbms進行數據轉換的框架	一、配置Sqoop 二、使用Sqoop把數據從mysql導入到HDFS中三、使用Sqoop把數據從HDFS導出到mysql中
十3、大數據實戰	大數據完整項目架構和開發過程練習

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。