目錄：個人大數據學習筆記

時間 2019-12-19

原文原文鏈接

前言

PC端的這個右側的目錄找東西確實好找點，我每次寫也很是注意看這塊排版工不工整🤣，用這裏去直接跳到對應的內容真的還算方便，因此就想着作個目錄，之後若是寫了新的，也會在這篇寫上標題。node

按照不一樣技術框架的劃分形式。已經有寫過的就寫上，沒寫過的就先空着。算法

1. 分佈式存儲 HDFS

① HDFS基礎概念篇

內容概要：block的概念與副本、機架存儲策略、三大組件：NameNode，DataNode，SecondaryNamenode、元數據metaData、心跳機制和負載均衡機制sql

② HDFS的讀寫流程和一些重要策略

內容概要：HDFS的讀寫流程，hadoop HA高可用，聯邦，存儲小文件時的HAR和Sequence File網絡

2. 分佈式計算 MapReduce

① MapReduce介紹

內容概要：mapper和reducer代碼、shuffle、二排、數據傾斜的判斷和減緩數據結構

3. 資源調度 Yarn

① 帶你入坑大數據（四）--- 資源調度框架Yarn

內容概要：全是理論性的東西。yarn的應用場景、核心組件、應用調度過程、yarn的典型應用併發

4.分佈式協調 Zookeeper

zookeeper寫的時候姑且是按照Java的套路去寫的，和大數據的操做扯不上關係，以後可能會進行相應的補充app

① Zookeeper的基礎概念

內容概要：包括zookeeper的簡介和特徵，會話機制、znode的數據構成和節點類型，還有zk的監聽機制負載均衡

② Zookeeper實現分佈式鎖

內容概要：鎖的特徵，zkClient的使用、使用節點不可重名+watch機制實現分佈式鎖、使用取號 + 最小號取lock + watch原理實現分佈式鎖框架

③ Zookeeper集羣的搭建和leader選舉

內容概要：僞集羣形式的zookeeper的集羣搭建，集羣鏈接和監控，paxos算法的解釋說明、zookeeper的leader選舉機制運維

④ Zookeeper的分佈式隊列

內容概要：ZAB協議的介紹，數據同步，丟棄事務，leader崩潰恢復、zookeeper的分佈式隊列的實現邏輯及代碼實現

⑤ Zookeeper的配置中心應用

內容概要：配置中心的介紹，數據結構，代碼實現

⑥ Zookeeper的Master選舉及官網小覽

內容概要：master選舉和zookeeper的相關實現、官網本身的一個瀏覽過程

5.Hadoop源碼及優化

前置兩篇RPC基礎

從零開始的高併發（七）--- RPC的介紹，協議及框架

內容概要：簡單過了一遍RPC是什麼，三個過程，爲何咱們須要它，它的特性和適用場景，RPC的流程及協議定義還有它的框架的一些小知識

從零開始的高併發（八）--- RPC框架的簡單實現

內容概要：RPC的流程和任務分析及代碼實現，附帶過程優化，優化部分推薦先直接跳轉總圖查看

① Hadoop源碼篇 --- NameNode的啓動流程解析

內容概要：如題，NameNode啓動流程分析，思路爲驗證NameNode是否是一個RPC的服務端

② Hadoop源碼篇 --- DataNode的初始化與註冊流程

內容概要：如題，DataNode啓動流程分析，思路也是驗證它是不是RPC的客戶端，還有Hadoop HA高可用方案原理

6.Hive

7.Hbase

8.Flume

9.Sqoop

10.azkaban

11.impala

12.Spark

說到它就巨頭痛。Spark是很是多東西的，有基礎，有spark core，有spark sql，有spark streaming

13.Kafka基礎

① 大白話帶你認識Kafka

內容概要：Kafka中的一些基礎角色的介紹，topic，partition，producer，consumer，message，副本，消費者組，controller、kafka和zookeeper的配合，kafka的順序寫和零拷貝，日誌分段存儲機制和kafka的三層網絡模型

② Kafka的集羣部署實踐及運維相關

內容概要：這篇並非在說概念，而是說一些集羣的參數考量方面、集羣搭建的重要參數、集羣的簡單操做和一些客戶端

③ Kafka的生產者原理及重要參數說明

內容概要：生產者原理（ProducerRecord，Partitioner、緩衝區和Sender線程），生產者的代碼及一些調優參數

④ Kafka的生產者案例和消費者原理解析

內容概要：生產者的一個小案例實現及消費者原理（offset，coordinator），消費者代碼及核心參數

⑤ Kafka的運行流程總結和源碼前準備

內容概要：LEO&HW更新原理，kafka運行的總流程梳理，源碼的閱讀環境

14.Kafka源碼

① Kafka源碼預熱篇--- Java NIO

內容概要：傳統IO和NIO的區別，NIO（buffer，channel，selector、pipe）的介紹及阻塞性與非阻塞性網絡通訊的代碼演示，主要是爲了Kafka源碼準備

15.Flink

和Spark Streaming屬於計算類框架，看狀況

finally

即便前方仍舊荊棘叢生，但是咱們沒有理由放棄奔跑···

這個flag不管對於你我來講都是一個考驗，在第一篇HDFS的時候，就說過了這雖然是相似於一份學習筆記，但是絕對有頭有尾，會用最清晰明瞭的語言來描述知識點，但願你們也能有所收穫。以這個目錄爲證，相信我必定能說到作到。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。