Vvio總共就一輪技術面+一輪HR面,技術面整體而言,比較寬泛,比較看中基礎,面試的全程沒有涉及簡歷上的東西(都準備好跟他扯項目了,感受是抽取的題庫。。。)具體內容以下:面試
1.熟悉Hadoop哪些組件?算法
答:hdfs、yarn、MapRedue、Hive網絡
2.講一講yarn的調度過程?app
答:blabla。。。oop
3.yarn的調度器有哪些?學習
答:FIFO、多隊列分開調度、CapacityScheduler、FairScheduler。。。(當時沒答全)大數據
4.講講Hive內部表和外部表的區別?spa
答:(1)內部表徹底受Hive管理,外部表除了受Hive管理外,還受HDFS的管理計算機網絡
(2)刪除內部表數據的話,元數據和存儲數據都會被刪除,而刪除外部表的話,只有元數據會被刪除,而存儲在hdfs中的數據不會被刪除。排序
(3)外部表經過external關鍵字來建立,內部表不須要。
(4)對內部表的結構進行修改後,會同步給元數據;而對外部表的結構進行修改後,須要進行修復。
5.Hive的join操做怎麼寫?
答:blabla....
6.Mapper和Reducer寫過嗎?
答:很久沒寫了,忘記了。。。
問:udf呢?
答:。。。。
7.熟悉哪些排序?
答:堆排序、快排、歸併排序、直接插入排序、簡單選擇排序
問:那手寫下快排
答:。。。(幸虧前一天晚上又了遍)
8.MapReduce的哪一個過程用到了排序?
答:shuffle過程用到了歸併排序(這裏說錯了個地方,把shuffle過程說成了是在Reduce階段的剛開始,其實是在Map階段的結尾處)。。。
9.Linux熟悉嗎?
答:基本的經常使用命令比較熟悉...
問:如何找出最近三天修改過的文件?
答:find命令,具體參數忘記了,囧。。。
問:如何顯示各個程序佔用的端口?
答:我。。。netstat?(這一塊仍是要增強。。。)
10.計算機網絡熟悉嗎?TCP的三次握手和四次揮手講一下?
答:blabla。。。。
問:爲何要三次握手而不用兩次握手,舉個實際的例子說明下》
答:(這不分答得很差,主要是很久沒看計算機網絡了。。)
11.給你一個1G的文件,機器的內存只有1M,如何利用機器找出出現次數最多的100個字符串?
答:將大文件分紅小文件,每一個小文件進行統計,找出最大的100個字符串出來,而後將每一個小文件統計的前100個出現次數最多的字符串存放到一個文件中,在該文件中找出出現次數最多的100個字符串出來即最終的出現次數最多的100個字符串。
問:具體是如何劃分的呢?
答:感受這裏答的不是很好,我是按照單詞的個數進行劃分的,若是單詞的數量湊夠1M的話,就分割成一個小文件(感受面試官不是很滿意,這種題型以前看的少,沒有很深刻的思考過,結果弊端就顯現出來了。。。)
=========================================================分割線===================================================================
基本上就這些問題了,整體而言問的實際上並非很難,一方面因爲第一次面試大數據開發相關崗位,沒搞清楚知識點的懂點(其實這些問題都見過,只不過有些就一帶而過了,沒有深刻的去學習思考;花費大量的時間在算法題上了,結果並無怎麼問算法題);另外一方面秋招到春招好幾個月了,已經沒啥面試狀態了。。。