最詳細的大數據學習路線圖【本身定製的】

時間 2019-11-12

標籤詳細數據學習路線圖本身定製的简体版

原文原文鏈接

1、入門準備
一、linux操做基礎java

Linux的介紹，Linux的安裝：VMware Workstation虛擬軟件安裝過程、CentOS虛擬機安裝過程
Linux的經常使用命令：經常使用命令的介紹、經常使用命令的使用和練習（文件操做、用戶管理與權限、免密登錄配置與網絡管理）
Linux系統進程管理基本原理及相關管理工具如ps、pkill、top、htop等的使用；
Linux啓動流程，運行級別詳解，chkconfig詳解
VI、VIM編輯器：VI、VIM編輯器的介紹、VI、VIM扥使用和經常使用快捷鍵
Linux磁盤管理，lvm邏輯卷，nfs詳解
Linux系統文件權限管理：文件權限介紹、文件權限的操做
Linux的RPM軟件包管理：RPM包的介紹、RPM安裝、卸載等操做
yum命令，yum源搭建
Linux網絡：Linux網絡的介紹、Linux網絡的配置和維護防火牆配置
Shell編程：Shell的介紹、Shell腳本的編寫
Linux上常見軟件的安裝：安裝JDK、安裝Tomcat、安裝mysql,web項目部署
13）linux高級文本處理命令cut、sed、awklinuxnode

14）定時任務crontabpython

今天爲你們整理了部分大數據學習教程與你們共享，每一個人能夠根據本身的須要來選擇，須要的小夥伴能夠+下學習資料分享裙 199加上427最後是210數字連起來就是了。mysql

二、大型網站高併發處理linux

第四層負載均衡nginx

a) Lvs負載均衡 i. 負載算法，NAT模式，直接路由模式（DR），隧道模式（TUN）
b) F5負載均衡器介紹web

第七層負載均衡
a) Nginx b) Apacheredis

Tomcat、jvm優化提升併發量算法

緩存優化
a) Java緩存框架 i. Oscache，ehcache
b) 緩存數據庫 i. Redis，Memcachedsql

Lvs+nginx+tomcat+redis|memcache構建二層負載均衡千萬併發處理

Haproxy

Fastdfs小文件獨立存儲管理

Redis緩存系統 a) Redis基本使用 b) Redis sentinel高可用 c) Redis好友推薦算法

三、Lucene基礎

Lucene介紹

Lucene 倒排索引原理

建索引 IndexWriter

搜索 IndexSearcher

Query

Sort和過濾（filter）

索引優化和高亮

四、solr基礎

什麼是solr
爲何工程中要使用solr
Solr的原理
如何在tomcat中運行solr
如何利用solr進行索引與搜索
solr的各類查詢
solr的Filter
solr的排序
solr的高亮
solr的某個域統計
solr的範圍統計
solrcloud集羣搭建
五、布式協調服務zookeeper

zookeeper簡介及應用場景
zookeeper集羣安裝部署
zookeeper的數據節點與命令行操做
zookeeper的java客戶端基本操做及事件監聽
zookeeper核心機制及數據節點
zookeeper應用案例–分佈式共享資源鎖
zookeeper應用案例–服務器上下線動態感知
zookeeper的數據一致性原理及leader選舉機制
六、java高級特性加強

Java多線程基本知識
Java同步關鍵詞詳解
java併發包線程池及在開源軟件中的應用
Java併發包消息隊裏及在開源軟件中的應用
Java JMS技術
Java動態代理反射

2、離線計算系統
一、hadoop快速入門
hadoop背景介紹
分佈式系統概述
離線數據分析流程介紹
集羣搭建
集羣使用初步

二、HDFS加強
HDFS的概念和特性
HDFS的shell(命令行客戶端)操做
HDFS的工做機制
NAMENODE的工做機制
java的api操做
案例1：開發shell採集腳本

三、MAPREDUCE詳解
自定義hadoop的RPC框架
Mapreduce編程規範及示例編寫
Mapreduce程序運行模式及debug方法
mapreduce程序運行模式的內在機理
mapreduce運算框架的主體工做流程
自定義對象的序列化方法
MapReduce編程案例

四、MAPREDUCE加強
Mapreduce排序
自定義partitioner
Mapreduce的combiner
mapreduce工做機制詳解

五、MAPREDUCE實戰
maptask並行度機制-文件切片
maptask並行度設置
倒排索引
共同好友

六、federation介紹和hive使用
Hadoop的HA機制
HA集羣的安裝部署
集羣運維測試之Datanode動態上下線
集羣運維測試之Namenode狀態切換管理
集羣運維測試之數據塊的balance
HA下HDFS-API變化
hive簡介
hive架構
hive安裝部署
hvie初使用

七、hive加強和flume介紹
HQL-DDL基本語法
HQL-DML基本語法
HIVE的join
HIVE 參數配置
HIVE 自定義函數和Transform
HIVE 執行HQL的實例分析
HIVE最佳實踐注意點
HIVE優化策略
HIVE實戰案例
Flume介紹
Flume的安裝部署
案例：採集目錄到HDFS
案例：採集文件到HDFS

3、數據遷移工具Sqoop

介紹和配置Sqoop
Sqoop shell使用
Sqoop-import a) DBMS-hdfs b) DBMS-hive c) DBMS-hbase
Sqoop-export
4、Flume分佈式日誌框架

flume簡介-基礎知識
flume安裝與測試
flume部署方式
flume source相關配置及測試
flume sink相關配置及測試
flume selector 相關配置與案例分析
flume Sink Processors相關配置和案例分析
flume Interceptors相關配置和案例分析
flume AVRO Client開發
flume 和kafka 的整合
5、內存數據庫redis
redis特色、與其餘數據庫的比較
如何安裝redis
如何使用命令行客戶端
redis的字符串類型
redis的散列類型
redis的列表類型
redis的集合類型
如何使用java訪問redis【a.python訪問redis,scala訪問redis】
redis的事務(transaction)
redis的管道(pipeline)
redis持久化(AOF+RDB)
redis優化
redis的主從複製
redis的sentinel高可用
twemproxy,codis實戰
redis3.x集羣安裝配置
6、Storm上下游及架構集成

kafka是什麼

kafka體系結構

kafka配置詳解

kafka的安裝

kafka的存儲策略

kafka分區特色

kafka的發佈與訂閱

zookeeper協調管理

java編程操做kafka

scala編程操做kafka

flume 和kafka 的整合

Kafka 和storm 的整合

7、Storm從入門到精通

Storm的基本概念

Storm的應用場景

Storm和Hadoop的對比

Storm集羣的安裝的linux環境準備

zookeeper集羣搭建

Storm集羣搭建

Storm配置文件配置項講解

集羣搭建常見問題解決

Storm經常使用組件和編程API：Topology、 Spout、Bolt

Storm分組策略(stream groupings)

使用Strom開發一個WordCount例子

Storm程序本地模式debug、Storm程序遠程debug

Storm事物處理

Storm消息可靠性及容錯原理

Storm結合消息隊列Kafka：消息隊列基本概念(Producer、Consumer、Topic、Broker等)、消息隊列Kafka使用場景、Storm結合Kafka編程API

Storm Trident概念

Trident state 原理

Trident開發實例

Storm DRPC(分佈式遠程調用)介紹

Storm DRPC實戰講解

Storm和Hadoop 2.x的整合：Storm on Yarn

8、scala編程

scala解釋器、變量、經常使用數據類型等
scala的條件表達式、輸入輸出、循環等控制結構
scala的函數、默認參數、變長參數等
scala的數組、變長數組、多維數組等
scala的映射、元組等操做
scala的類，包括bean屬性、輔助構造器、主構造器等
scala的對象、單例對象、伴生對象、擴展類、apply方法等
scala的包、引入、繼承等概念
scala的特質
scala的操做符
scala的高階函數
scala的集合
scala數據庫鏈接
9、內存計算體系Spark

Spark介紹
Spark應用場景
Spark和Hadoop MR、Storm的比較和優點
RDD
Transformation
Action
Spark計算PageRank
Lineage
Spark模型簡介
Spark緩存策略和容錯處理
寬依賴與窄依賴
Spark配置講解
Spark集羣搭建
集羣搭建常見問題解決
Spark原理核心組件和經常使用RDD
數據本地性
任務調度
DAGScheduler
TaskScheduler
Spark源碼解讀
性能調優
Spark和Hadoop2.x整合：Spark on Yarn原理
10、SparkStreaming應用實戰
Spark-Streaming簡介
Spark-Streaming編程
實戰：StageFulWordCount
Flume結合Spark Streaming
Kafka結合Spark Streaming
窗口函數
ELK技術棧介紹
ElasticSearch安裝和使用
Storm架構分析
Storm編程模型、Tuple源碼、併發度分析
Storm WordCount案例及經常使用Api分析

11、機器學習算法
一、python及numpy庫
機器學習簡介
機器學習與python
python語言–快速入門
python語言–數據類型詳解
python語言–流程控制語句
python語言–函數使用
python語言–模塊和包
phthon語言–面向對象
python機器學習算法庫–numpy
機器學習必備數學知識–機率論

二、經常使用算法實現knn分類算法–算法原理knn分類算法–代碼實現knn分類算法–手寫字識別案例lineage迴歸分類算法–算法原理lineage迴歸分類算法–算法實現及demo樸素貝葉斯分類算法–算法原理樸素貝葉斯分類算法–算法實現樸素貝葉斯分類算法–垃圾郵件識別應用案例kmeans聚類算法–算法原理kmeans聚類算法–算法實現kmeans聚類算法–地理位置聚類應用決策樹分類算法–算法原理決策樹分類算法–算法實現

相關標籤/搜索