Hadoop技術資料彙總(不斷更新中)

這些資料都是我在工做中學習、解決問題的資料彙總,我不能保證這裏羅列的全部資料對看到的人有用,但大部分都通過個人實際驗證。在不斷學習和實踐過程當中,我會不斷更新和總結這些資料,同時歡迎你們留言交流。感謝這些資料的做者。html

1、HDFS

一、集羣安裝:java

Hadoop 2.6.0 HA高可用集羣配置詳解node

二、NameNode:linux

HDFS NameNode內存全景android

三、DataNode:git

Hadoop--HDFS之DataNodegithub

四、權限管理:apache

HDFS權限管理實踐api

五、數據平衡:性能優化

How does the HDFS balancer work internally?

HDFS Commands, HDFS Permissions and HDFS Storage

HORTONWORKS官方文檔:Balancing in HDFS

六、集羣治理:

應對Hadoop集羣數據瘋長,這裏祭出了4個治理對策!

基於FsImage的HDFS數據深度分析

NameNode Analytics: PayPal’s Big Data Guardian

七、問題彙總:

(1)Hadoop Non DFS Used大小問題:

Hadoop hdfs界面:Hadoop Non DFS Used大小問題

關於hadoop hdfs中Non DFS Used佔用很大的問題分析處理

(2)小文件處理:

HDFS自定義小文件分析功能

HDFS文件目錄list操做加速優化

(3)Namenode寫Journalnode超時,致使Namenode掛掉的問題:

Namenode寫Journalnode超時,致使Namenode掛掉的問題

java.io.IOException: Timed out waiting 20000ms for a quorum of nodes to respond

關於機房交換機故障致使HDFS NameNode掛掉的問題(續)

NameNode HA異常調查

Timed out waiting 20000ms for a quorum of nodes to respond

namenode gc致使的故障一例

Standby NameNode is faling and only one is running

(4)HDFS NameNode 重啓優化

(5)Hadoop節點"慢磁盤"監控

八、其餘:

(1)Hadoop學習之路(十二)分佈式集羣中HDFS系統的各類角色

(2)監控相關:

HDFS Ports

hadoop指標項

NameNode Metrics

How to collect Hadoop metrics

2、YARN

一、調度隊列:

Hadoop多用戶資源管理–Fair Scheduler介紹與配置

Yarn公平調度器Fair Scheduler根據用戶組分配資源池

YARN ResourceManager重啓做業保留機制

【Free Style】Hadoop-Yarn之Resource Manager源碼分析(四)

二、NodeManager:

NodeManager節點自身健康狀態檢測機制

三、ResourceManger:

ResourceManger Restart

YARN資源本地化深度解析

四、監控:

yarn社區原生界面詳解

五、問題彙總:

(1)資源不足、任務資源分配不合理、隊列資源分配不合理引發的資源預留問題:

What is Memory reserved on Yarn

Aggregate Resource Allocation for a job in YARN

(2)任務kill:

YARN批處理方式kill Applications解決方案

(3)Flink實時計算集羣:ZooKeeper閃斷致使的YARN任務狀態不一致引發的RM崩潰問題:

NullPointerException in RM HA enabled 3-node cluster

NPE happened when RM restart after CapacityScheduler queue configuration changed

Flink on YARN with HA enabled crashes all RMs on attempt restoration

六、其餘:

查看YARN任務日誌的幾種方式

YARN ApplicationId的生成方式

Yarn: Application Id - How is it generated ?

3、集羣維護

關於DataNode更改IP地址後所可能引起HDFS集羣狀態變化的分析

4、博客&文章

一、lxw的大數據田地

二、過往記憶

三、Android路上的人

四、石杉的架構筆記:

兄弟,用大白話告訴你小白都能看懂的Hadoop架構原理

大規模集羣下Hadoop NameNode如何承載每秒上千次的高併發訪問

【性能優化的祕密】Hadoop如何將TB級大文件的上傳性能優化上百倍

五、每日 7 千次的跨部門任務調度,有贊怎麼設計大數據開發平臺?

六、Yarn FairScheduler 的資源預留機制致使的一次宕機事故分析

七、張翼:Spark SQL在攜程的實踐經驗分享!

5、參考書籍

深度剖析Hadoop HDFS,林意羣 著

Hadoop技術內幕:深刻解析YARN架構設計與實現原理,董西成 著

大數據日知錄,張俊林著

6、其餘

一、Hadoop源碼編譯:

(1)環境準備:

brew install autoconf automake libtool

(2)編譯:

Hadoop工程根目錄下的BUILDING.txt中Maven build goals部分列出了編譯Hadoop源碼要用的maven命令,如下是參考文章:

編譯命令:

mvn clean package -Pdist,native -DskipTests -Dtar

(3)問題解決:

相關文章
相關標籤/搜索