大數據經典學習路線（及供參考）之一

時間 2020-02-08

標籤數據經典學習路線參考简体版

原文原文鏈接

1.Linux基礎和分佈式集羣技術java

學完此階段可掌握的核心能力：nginx

熟練使用Linux，熟練安裝Linux上的軟件，瞭解熟悉負載均衡、高可靠等集羣相關概念，搭建互聯網高併發、高可靠的服務架構；程序員

學完此階段可解決的現實問題：web

搭建負載均衡、高可靠的服務器集羣，能夠增大網站的併發訪問量，保證服務不間斷地對外服務；shell

學完此階段可擁有的市場價值：數據庫

具有初級程序員必要具有的Linux服務器運維能力。編程

1.內容介紹：api

在大數據領域，使用最多的操做系統就是Linux系列，而且幾乎都是分佈式集羣。該課程爲大數據的基礎課程，主要介紹Linux操做系統、Linux經常使用命令、Linux經常使用軟件安裝、Linux網絡、防火牆、Shell編程等。服務器

2.案例：搭建互聯網高併發、高可靠的服務架構。網絡

2.離線計算系統課程階段

1. 離線計算系統課程階段

HADOOP核心技術框架

學完此階段可掌握的核心能力：

一、經過對大數據技術產生的背景和行業應用案例瞭解hadoop的做用；二、掌握hadoop底層分佈式文件系統HDFS的原理、操做和應用開發；三、掌握MAPREDUCE分佈式運算系統的工做原理和分佈式分析應用開發；四、掌握HIVE數據倉庫工具的工做原理及應用開發。

學完此階段可解決的現實問題：

一、熟練搭建海量數據離線計算平臺；二、根據具體業務場景設計、實現海量數據存儲方案；三、根據具體數據分析需求實現基於mapreduce的分佈式運算程序；

學完此階段可擁有的市場價值：

具有企業數據部初級應用開發人員的能力

1.1 HADOOP快速入門

1.1.1 hadoop知識背景

什麼是hadoop、hadoop產生背景、hadoop在大數據雲計算中的位置和關係、國內hadoop的就業狀況分析及課程大綱介紹

國內外hadoop應用案例介紹

分佈式系統概述、hadoop生態圈及各組成部分的簡介

1.1.2 HIVE快速入門

hive基本介紹、hive的使用、數據倉庫基本知識

1.1.3 數據分析流程案例

web點擊流日誌數據挖掘的需求分析、數據來源、處理流程、數據分析結果導出、數據展示

1.1.4 hadoop數據分析系統集羣搭建

集羣簡介、服務器介紹、網絡環境設置、服務器系統環境設置、JDK環境安裝、hadoop集羣安裝部署、集羣啓動、集羣狀態測試

HIVE的配置安裝、HIVE啓動、HIVE使用測試

1.2 HDFS詳解

1.2.1 HDFS的概念和特性

什麼是分佈式文件系統、HDFS的設計目標、HDFS與其餘分佈式存儲系統的優劣勢比較、HDFS的適用場景

1.2.2 HDFS的shell操做

HDFS命令行客戶端啓動、HDFS命令行客戶端的基本操做、命令行客戶端支持的經常使用命令、經常使用參數介紹

1.2.3 HDFS的工做機制

HDFS系統的模塊架構、HDFS寫數據流程、HDFS讀數據流程

NAMENODE工做機制、元數據存儲機制、元數據手動查看、元數據checkpoint機制、NAMENODE故障恢復、DATANODE工做機制、DATANODE動態增減、全局數據負載均衡

1.2.4 HDFS的java應用開發

搭建開發環境、獲取api中的客戶端對象、HDFS的java客戶端所具有的經常使用功能、HDFS客戶端對文件的經常使用操做實現、利用HDFS的JAVA客戶端開發數據採集和存儲系統

1.3 MAPREDUCE詳解

1.3.1 MAPREDUCE快速上手

爲何須要MAPREDUCE、MAPREDUCE程序運行演示、MAPREDUCE編程示例及編程規範、MAPREDUCE程序運行模式、MAPREDUCE程序調試debug的幾種方式

1.3.2 MAPREDUCE程序的運行機制

MAPREDUCE程序運行流程解析、MAPTASK併發數的決定機制、MAPREDUCE中的combiner組件應用、MAPREDUCE中的序列化框架及應用、MAPREDUCE中的排序、MAPREDUCE中的自定義分區實現、MAPREDUCE的shuffle機制、MAPREDUCE利用數據壓縮進行優化、MAPREDUCE程序與YARN之間的關係、MAPREDUCE參數優化

經過以上各組件的詳解，深入理解MAPREDUCE的核心運行機制，從而具有靈活應對各類複雜應用場景的能力

MAPREDUCE實戰編程案例：經過一個實戰案例來熟悉複雜MAPREDUCE程序的開發。該程序是從nginx服務器產生的訪問服務器中計算出每一個訪客的訪問次數及每次訪問的時長。原始數據樣例以下：

經過一系列的MAPREDUCE程序——清洗、過濾、訪問次數及時間分析，最終計算出需求所要的結果，用於支撐頁面展示：

1.4 HIVE加強

1.4.1 HIVE基本概念

HIVE應用場景、HIVE內部架構、HIVE與hadoop的關係、HIVE與傳統數據庫對比、HIVE的數據存儲機制、HIVE的運算執行機制

1.4.2 HIVE基本操做

HIVE中的DDL操做、HIVE中的DML操做、在HIVE中如何實現高效的JOIN查詢、HIVE的內置函數應用、HIVE shell的高級使用方式、HIVE經常使用參數配置、HIVE自定義函數和TRANSFORM的使用技巧、HIVE UDF開發實例

1.4.3 HIVE高級應用

HIVE執行過程分析及優化策略、HIVE在實戰中的最佳實踐案例、HIVE優化分類詳解、HIVE實戰案例--數據ETL、HIVE實戰案例--用戶訪問時長統計

HIVE實戰案例--級聯求和報表實例：

離線數據挖掘系統