大數據面試題

時間 2019-12-04

原文原文鏈接

第一階段：
1.scala閉包
2.jdk版本
3.mysql版本
4.垃圾回收器 CMS G1 HBASE
筆試部分：node

1.給定一個字符串，求最大的迴文長度？？？？
2.給定兩個有序的數組，合併一個有序的數組
3.一個有序的數組構建成平衡的二叉樹

第二階段：mysql

1.壓縮有哪幾種？ 區別 什麼場景用
2.文件格式有哪幾種？ 區別 什麼場景用
3.HDFS讀寫流程 output和input對象，誰是讀，誰是寫
4.HDFS的namenode內存生產上如何規劃？
5.小文件（20M如下） 過多了 什麼危害？如何規避 合併，下降namenode內存的壓力

6.yarn的工做流程
7.yarn調度器哪幾種？區別是什麼 
8.yarn的生產上調優參數 調優規劃 讓你的內存 最大化利用 vcore
9.Hive內部表和外部表的區別

10.Hive外部表有靜態，動態 區別是什麼
11.Hive的UDF函數，如何永久生效？
12.Hive的sort by, order by,cluster by, distributed by各表明什麼意思

13.sqoop如何增量抽取到Hive， 對應的hive表如何設計
14.hbase的rowkey如何設計，請舉例？
15.hbase的讀寫流程通過master嗎？假如不通過，那麼什麼流程通過呢？
16.hbase的hbck命令有了解嗎？哪些故障？哪些命令？

17.flume如何抽取數據？記錄pos點？ 能支持遞歸嗎？
18.flume源代碼有沒有作過二次開發？

19.kafka的ack有哪幾種？ 生產選擇哪一個？
20.kafka offset有絕對和相對的說法嗎？請解釋一下
21.kafka offset如何尋找數據 請複述流程
22.kafka 生產者和消費者生產上如何作監控？看數據的是否及時消費呢？
23.spark數據傾斜的解決方案
24.spark代碼有沒有閱讀過
25.