爲某企業作的培訓,完整文檔見:http://gudaoxuri.github.io/bd-lab/java
本工程爲大數據培訓的指導教程,包含了培訓實踐各個環節的說明及相關代碼。mysql
名稱 | 內容 |
---|---|
第一天上午git |
|
元寶鋪架構分享github |
|
大數據總攬sql |
介紹當前大數據的基本狀況apache |
環境準備網絡 |
爲後續實踐準備基礎環境架構 |
第一天下午框架 |
|
Spark入門工具 |
介紹Spark框架的基本概念 |
Scala入門 |
介紹Scala語言的基礎使用 |
Hadoop安裝使用 |
動手實踐Hadoop的安裝、配置及基礎使用 |
Spark安裝使用 |
動手實踐Spark的standalone安裝、配置及基礎使用 |
案例分析:ybMAP |
介紹元寶鋪數據處理遇到的問題及如何解決 |
次日上午 |
|
Zookeeper安裝使用 |
動手實踐Zookeeper的安裝、配置及基礎使用 |
HBase安裝使用 |
動手實踐HBase的安裝、配置及基礎使用 |
Hive安裝使用 |
動手實踐Hive的安裝、配置及基礎使用 |
Kafka安裝使用 |
動手實踐Kafka的安裝、配置及基礎使用 |
Sqoop安裝使用 |
動手實踐Sqoop的安裝、配置及基礎使用 |
Zeppelin安裝使用 |
動手實踐Zeppelin的安裝、配置及基礎使用 |
生產環境說明 |
介紹用Ambari+HDP搭建生產環境,使用Hue、Kylin作分析 |
案例分析:垂直行業數據運營平臺 |
以4S店行業爲入口分析垂直行業數據運營平臺的架構及流程 |
次日下午 |
|
綜合實例:訪客分析 |
以訪客分析爲例子綜合使用Kafka、Spark Streaming、Redis、Mongo等技術框架 |
綜合實例:支付寶數據處理 |
以支付寶數據處理爲例子綜合使用HDFS、Spark SQL、Hive、Zeppelin/Hue等技術框架 |
實驗須要的資源列表,因我朝網絡管制,故預先下載備用。
網盤下載地址: http://pan.baidu.com/s/1dEJ7agT |
生產環境下全部未經官方源下載的文件都要作簽名校驗 |
名稱 | 說明 |
---|---|
tools\DockerToolbox-1.11.0.exe |
Windows的Docker安裝程序 |
tools\DockerToolbox-1.11.0.pkg |
Mac的Docker安裝程序 |
tools\AsciidocFX_Windows_No_JRE.exe |
此文檔的撰寫工具 |
images\scala_2.10_image.tar |
Docker鏡像,本實驗的基礎環境 |
images\mysql_image.tar |
Docker MySQL鏡像 |
images\mongo_image.tar |
Docker Mongo鏡像 |
images\bd-lab_image.tar |
Docker鏡像,本實驗最終成果 |
frameworks\hadoop-2.7.2.tar.gz |
Hadoop壓縮包 |
frameworks\spark-1.6.1-bin-hadoop2.6.tgz |
Spark Hadoop2.6預編譯包 |
frameworks\apache-hive-1.2.1-bin.tar.gz |
Hive預編譯包 |
frameworks\hbase-1.2.1-bin.tar.gz |
HBase預編譯包 |
frameworks\kafka_2.10-0.8.2.2.tgz |
Kafka預編譯包 |
frameworks\zookeeper-3.4.8.tar.gz |
Zookeeper預編譯包 |
frameworks\sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz |
Sqoop預編譯包 |
frameworks\zeppelin-0.5.6-incubating-bin-all.tgz |
Zeppelin預編譯包 |
frameworks\mysql-connector-java-5.1.36.jar |
Mysql JDBC驅動 |
data\r4ZBzEh4Fu8imdju5_0.35396679607219994.out |
模擬支付寶數據 |
data\banks.csv |
模擬銀行數據 |