若是你在準備面試，就好好看看這130道題

時間 2020-02-12

原文原文鏈接

這些題目是一個知識星球的球友發給個人，其中有幾個題幫着解答了一下。但願對你們有幫助。
若是你不知道如何準備面試，那麼看看這個。html

年假立刻來臨，我相信有很多讀者都在準備或者考慮面試，不管如何不妨收藏一下。java

若是你某個題目不知道答案，那麼就去搜一下，若是搜不到，在公衆號回覆【加羣】，能夠加到羣裏尋求小夥伴們的求助。或者掃最下面的二維碼加小助手好友並留言，有時間後我會回覆你。mysql

順便多提一句，計算機基礎和語言基礎請你們務必重視，若是你不是計算機專業，那麼這些東西都要平時多看看。面試

這130個題暫時沒有答案，不少題目《大數據技術與架構》都發過文章講解過，須要你本身去準備，去看，去思考，真正理解。不要妄想別人餵給你，畢竟咱們是人不是鴨子。sql

一、HashMap 和 Hashtable 區別
二、Java 垃圾回收機制和生命週期
三、怎麼解決 Kafka 數據丟失的問題
四、zookeeper 是如何保證數據一致性的
五、hadoop 和 spark 在處理數據時，處理出現內存溢出的方法有哪些？
六、java 實現快速排序
七、設計微信羣發紅包數據庫表結構（包含表名稱、字段名稱、類型）
八、如何選型：業務場景、性能要求、維護和擴展性、成本、開源活躍度
九、Spark如何調優
十、Flink和spark的通訊框架有什麼異同
十一、Java的代理
十二、Java的內存溢出和內存泄漏
1三、hadoop 的組件有哪些？Yarn的調度器有哪些？
1四、hadoop 的 shuffle 過程
1五、簡述Spark集羣運行的幾種模式
1六、RDD 中的 reducebyKey 與 groupByKey 哪一個性能高？
1七、簡述 HBase 的讀寫過程
1八、在 2.5億個整數中，找出不重複的整數，注意：內存不足以容納 2.5億個整數。
1九、CDH 和 HDP 的區別
20、Java原子操做
2一、Java封裝、繼承和多態
2二、JVM 模型
2三、Flume taildirSorce 重複讀取數據解決方法
2四、Flume 如何保證數據不丟
2五、Java 類加載過程
2六、Spark Task 運行原理
2七、手寫一個線程安全的單例
2八、設計模式
2九、impala 和 kudu 的適用場景，讀寫性能如何
30、Kafka ack原理
3一、phoenix 建立索引的方式及區別
3二、Flink TaskManager 和 Job Manager 通訊
3三、Flink 雙流 join方式
3四、Flink state 管理和 checkpoint 的流程
3五、Flink 分層架構
3六、Flink 窗口
3七、Flink watermark 如何處理亂序數據
3八、Flink time
3九、Flink支持exactly-once 的 sink 和 source
40、Flink 提交做業的流程
4一、Flink connect 和 join 區別
4二、重啓 task 的策略
4三、hive 的鎖
4四、hive sql 優化方式
4五、hadoop shuffle 過程和架構
4六、如何優化 shuffle過程
4七、冒泡排序和快速排序
4八、講講Spark的stage
4九、spark mkrdd和Parrallilaze函數區別
50、Spark checkpoint 過程
5一、二次排序
5二、如何註冊 hive udf
5三、SQL去重方法
5四、Hive分析和窗口函數
5五、Hadoop 容錯，一個節點掛掉而後又上線
5六、掌握 JVM 原理
5七、Java 併發原理
5八、多線程的實現方法
5九、RocksDBStatebackend實現（源碼級別）
60、HashMap、ConcurrentMap和 Hashtable 區別
6一、Flink Checkpoint 是怎麼作的，做用到算子仍是chain
6二、Checkpoint失敗了的監控
6三、String、StringBuffer和 StringBuilder的區別
6四、Kafka存儲流程，爲何高吞吐？
6五、Spark優化方法舉例
6六、keyby的最大並行度
6七、Flink 優化方法
6八、Kafka ISR 機制
6九、Kafka partition的4個狀態
70、Kafka 副本的7個狀態
7一、Flink taskmanager的數量
7二、if 和 switch 的性能及 switch 支持的參數
7三、kafka 零拷貝
7四、hadoop 節點容錯機制
7五、HDFS 的副本分佈策略
7六、Hadoop面試題彙總，大概都在這裏(https://www.cnblogs.com/gala1...
7七、Kudu 和Impala 權限控制
7八、Time_wait狀態？當server處理完client的請求後馬上closesocket此時會出現time_wait狀態.
7九、三次握手交換了什麼？ (SYN,ACK,SEQ,窗口大小)
3次握手創建連接，4次握手斷開連接。
80、hashmap 1.7和1.8 的區別
8一、concurrenthashmap 1.7和1.8？
8二、Kafka 的ack
8三、sql 去重方法(group by 、distinct、窗口函數)
8四、哪些 Hive sql 不能在 Spark sql 上運行，看這裏：https://spark.apache.org/docs...
8五、什麼狀況下發生死鎖
8六、事務隔離級別？可重複讀、不可重複讀、讀未提交、串行化
8七、Spark shuffle 和 Hadoop shuffle的異同
8八、Spark靜態內存和動態內存
8九、mysql btree 和 hash tree 的區別。btree 須要惟一主鍵，hash tree 適合>= 等，精確匹配，不適合範圍檢索
90、udf、udtf和 udaf 的區別
9一、hive sql 的執行過程
9二、client 端，spark sql 的執行過程
9三、找出數組中最長的top10字符串
9四、Flink 數據處理流程
9五、Flink 與 Spark streaming 對比
9六、Flink watermark 使用
9七、窗口與流的結合
9八、Flink 實時告警設計
9九、Java：面向對象、容器、多線程、單例
100、Flink：部署、API、狀態、checkpoint、savepoint、watermark、重啓策略、datastream 算子和優化、job和task狀態
10一、Spark：原理、部署、優化
10二、Kafka：讀寫原理、使用、優化
10三、hive的外部表
10四、spark的函數式編程
10五、線性數據結構和數據結構
10六、Spark映射，rdd。
10七、java的內存溢出和內存泄漏。
10八、多線程的實現方法
10九、HashMap、ConcurrentMap和 Hashtable 區別
1十、Flink Checkpoint 是怎麼作的，做用到算子仍是chain
1十一、Checkpoint失敗了的監控
1十二、String、StringBuffer和 StringBuilder的區別
11三、Kafka存儲流程，爲何高吞吐
11四、Spark 優化方法舉例
11五、keyby 的最大並行度
11六、Flink 優化方法
11七、kafka isr 機制
11八、kafka partition 的 4個狀態
11九、kafka 副本的 7個狀態
120、taskmanager 的數量
12一、if 和 switch 的性能
12二、Hdfs讀寫流程（結合cap理論講）
12三、技術選型原則
12四、Kafka組件介紹
12五、g1和cms的區別
12六、熟悉的數據結構
12七、spark oom處理方法
12八、看了哪些源碼
12九、Spark task原理
130、解決過的最有挑戰的問題
13一、Hbase讀寫流程數據庫