Hadoop技術資料彙總（不斷更新中）

時間 2019-11-06

標籤 hadoop 技術資料彙總不斷更新欄目 Hadoop 简体版

原文原文鏈接

這些資料都是我在工做中學習、解決問題的資料彙總，我不能保證這裏羅列的全部資料對看到的人有用，但大部分都通過個人實際驗證。在不斷學習和實踐過程當中，我會不斷更新和總結這些資料，同時歡迎你們留言交流。感謝這些資料的做者。html

1、HDFS

一、集羣安裝：java

Hadoop 2.6.0 HA高可用集羣配置詳解node

二、NameNode：linux

HDFS NameNode內存全景android

三、DataNode：git

Hadoop--HDFS之DataNodegithub

四、權限管理：apache

HDFS權限管理實踐api

五、數據平衡：性能優化

How does the HDFS balancer work internally?

HDFS Commands, HDFS Permissions and HDFS Storage

HORTONWORKS官方文檔：Balancing in HDFS

六、集羣治理：

應對Hadoop集羣數據瘋長，這裏祭出了4個治理對策！

基於FsImage的HDFS數據深度分析

NameNode Analytics: PayPal’s Big Data Guardian

七、問題彙總：

（1）Hadoop Non DFS Used大小問題：

Hadoop hdfs界面：Hadoop Non DFS Used大小問題

關於hadoop hdfs中Non DFS Used佔用很大的問題分析處理

（2）小文件處理：

HDFS自定義小文件分析功能

HDFS文件目錄list操做加速優化

（3）Namenode寫Journalnode超時，致使Namenode掛掉的問題：

Namenode寫Journalnode超時，致使Namenode掛掉的問題

java.io.IOException: Timed out waiting 20000ms for a quorum of nodes to respond

關於機房交換機故障致使HDFS NameNode掛掉的問題（續）

NameNode HA異常調查

Timed out waiting 20000ms for a quorum of nodes to respond

namenode gc致使的故障一例

Standby NameNode is faling and only one is running

（4）HDFS NameNode 重啓優化

（5）Hadoop節點"慢磁盤"監控

八、其餘：

（1）Hadoop學習之路（十二）分佈式集羣中HDFS系統的各類角色

（2）監控相關：

HDFS Ports

hadoop指標項

NameNode Metrics

How to collect Hadoop metrics

2、YARN

一、調度隊列：

Hadoop多用戶資源管理–Fair Scheduler介紹與配置

Yarn公平調度器Fair Scheduler根據用戶組分配資源池

YARN ResourceManager重啓做業保留機制

【Free Style】Hadoop-Yarn之Resource Manager源碼分析(四)

二、NodeManager：

NodeManager節點自身健康狀態檢測機制

三、ResourceManger：

ResourceManger Restart

YARN資源本地化深度解析

四、監控：

yarn社區原生界面詳解

五、問題彙總：

（1）資源不足、任務資源分配不合理、隊列資源分配不合理引發的資源預留問題：

What is Memory reserved on Yarn

Aggregate Resource Allocation for a job in YARN

（2）任務kill：

YARN批處理方式kill Applications解決方案

（3）Flink實時計算集羣：ZooKeeper閃斷致使的YARN任務狀態不一致引發的RM崩潰問題：

NullPointerException in RM HA enabled 3-node cluster

NPE happened when RM restart after CapacityScheduler queue configuration changed

Flink on YARN with HA enabled crashes all RMs on attempt restoration

六、其餘：

查看YARN任務日誌的幾種方式

YARN ApplicationId的生成方式

Yarn: Application Id - How is it generated ?

3、集羣維護

關於DataNode更改IP地址後所可能引起HDFS集羣狀態變化的分析

4、博客&文章

一、lxw的大數據田地

二、過往記憶

三、Android路上的人

四、石杉的架構筆記：

兄弟，用大白話告訴你小白都能看懂的Hadoop架構原理

大規模集羣下Hadoop NameNode如何承載每秒上千次的高併發訪問

【性能優化的祕密】Hadoop如何將TB級大文件的上傳性能優化上百倍

五、每日 7 千次的跨部門任務調度，有贊怎麼設計大數據開發平臺？

六、Yarn FairScheduler 的資源預留機制致使的一次宕機事故分析

七、張翼：Spark SQL在攜程的實踐經驗分享！

5、參考書籍

深度剖析Hadoop HDFS，林意羣著

Hadoop技術內幕：深刻解析YARN架構設計與實現原理，董西成著

大數據日知錄，張俊林著

6、其餘

一、Hadoop源碼編譯：

（1）環境準備：

Mac安裝protobuf 流程
How to install Autoconf, Automake and related tools on Mac OS X from source?，執行以下命令安裝：

brew install autoconf automake libtool

（2）編譯：

Hadoop工程根目錄下的BUILDING.txt中Maven build goals部分列出了編譯Hadoop源碼要用的maven命令，如下是參考文章：

編譯命令：

mvn clean package -Pdist,native -DskipTests -Dtar

（3）問題解決：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。