1.描述一下HDFS的寫流程node
2.描述一下HDFS的讀流程面試
3.詳細講解一下HDFS的體系結構算法
4.若是一個datanode出現宕機,恢復流程是什麼樣的?shell
5.一般你是如何解決Haddop的NameNode宕機的,流程是什麼?緩存
6.描述一下NameNode對元數據的管理安全
7.NameNode對元數據的管理機制是什麼?架構
8.詳細描述一下Yarn的調度流程?oop
9.講解一下Hadoop中combiner和partition的做用大數據
10.你在MapReduce過程當中遇到過數據傾斜問題嗎?你是如何處理的?優化
11.Hadoop的Shuffle分爲哪幾個階段?有什麼特色
12.Mapreduce的map數量和reduce數量是由什麼決定的?
13.你對MapReduce作過什麼優化?有什麼經驗?
14.用過Combiner嗎?什麼狀況要使用Combiner?
15.講解一下MapReduce的流程?
16.HDFS的系統架構是如何保證數據安全的?
17.在經過客戶端向HDFS中寫數據的時候,若是某一臺機器宕機了,會怎麼處理
18.你對Hadoop集羣作過哪些優化?有哪些經常使用的優化措施?
19.寫出MapReduce求TopN的思路
20.Hadoop集羣中有哪些進程?他們各自有什麼做用?
21.Hadoop的job和Task之間的區別是什麼?
22.Hadoop高可用HA模式如何配置?工做原理是什麼?
23.安裝過集羣嗎?大概須要哪幾步驟?
24.fsimage和edit的區別
25.詳細描述Yarn的三大調度策略
26.說出一些hadoop的經常使用shell命令
27.如何用MapReduce實現求用戶PV TOP10?
1.談談Hadoop序列化和反序列化及自定義bean對象實現序列化?
2.FileInputFormat切片機制
3.在一個運行的Hadoop 任務中,什麼是InputSplit?
4.如何斷定一個job的map和reduce的數量?
6.MapTask和ReduceTask工做原理和機制
7.描述mapReduce有幾種排序及排序發生的階段
8.描述mapReduce中shuffle階段的工做流程,如何優化shuffle階段
9.描述mapReduce中combiner的做用是什麼,通常使用情景,哪些狀況不須要,及和reduce的區別?
10.若是沒有定義partitioner,那數據在被送達reducer前是如何被分區的?
11.MapReduce 出現單點負載多大,怎麼負載平衡?
12.MapReduce 怎麼實現 TopN? 寫出關鍵代碼
13.Hadoop的緩存機制(DistributedCache)
14.如何使用MapReduce實現兩個表的join?
15.什麼樣的計算不能用MapReduce來提速?
16.ETL是哪三個單詞的縮寫,說說你用過的ETL場景和哪些技術點?
2.HDFS 默認 BlockSize 是多大?
3.負責HDFS數據存儲的是哪一部分?
4.SecondaryNameNode的目的是什麼?
5.文件大小設置,增大有什麼影響?
6.hadoop的塊大小,從哪一個版本開始是128M
7.HDFS的存儲機制
8.Secondary Namenode工做機制?
9.NameNode與SecondaryNameNode 的區別與聯繫?
10.HDFS組成架構
11.HAnamenode 是如何工做的?
1.簡述hadoop1與hadoop2 的架構異同?
2.爲何會產生 yarn,它解決了什麼問題,有什麼優點?
3.HDFS的數據壓縮算法?
4.Hadoop的調度器總結?
5.MapReduce 2.0 容錯性?
6.Mapreduce推測執行算法及原理?
1.MapReduce跑得慢的緣由?
2.MapReduce優化方法?
3.HDFS小文件優化方法?
原文參考:《MapReduce/HDFS/YARN面試題70連擊》 答案都在文中哦。
歡迎關注,《大數據成神之路》系列文章
歡迎關注,《大數據成神之路》系列文章
歡迎關注,《大數據成神之路》系列文章