1.給40億個不重複的unsigned int的證書,沒排過序,而後再給一個數,若是快速判斷這個數再也不這40億個數當中?html
2.採集nginx產生的日誌,日誌格式爲user ip time url htmlID 天天產生的文件數量上億條,請設計方案把數據保存到hdfs上,並提供一下實時查詢功能(相應時間小於3s)?node
a 某個用戶某天訪問某個URL的次數nginx
b 某個URL某天被訪問的總次數數據結構
3.datanode首次加入cluster的時候,若是log報告不兼容文件版本,那須要namenode執行格式化操做,這樣處理的緣由是?oop
4.描述Hbase中scan和get的功能以及實現的異同?url
5.簡述Hbase數據操做步驟以及Hlog功能?設計
6.hadoop中job和task之間的區別是什麼?日誌
7.hadoop節點動態上線下線怎麼操做?htm
8.hbase二級索引的描述,哪些是正確的()a 核心是倒排序 b 二級索引概念是對應Rowkey這個「一級」索引 c 二級索引使用平衡二叉樹 d 二級索引使用LSM結構排序
9.mapreduce與hbase的關係,哪些描述是正確的?()a 2者不可或缺,mapreduce是hbase能夠正常運行的保證 b 2者不是強關聯,沒有mapreduce,hbase能夠正常運行c ···········mapreduce能夠直接訪問hbaes d 他們沒有任何關係
10.hbase依賴?提供消息通訊機制 a zookeeper b chubby c RPC d Socket
11 hfile數據格式中的metaindex字段用於? a meta快的長度 b meta快的結束點 c meta快的數據結構 d meta塊的起始點
12secondryNamenode?個正確 a