面試題

1.給40億個不重複的unsigned  int的證書,沒排過序,而後再給一個數,若是快速判斷這個數再也不這40億個數當中?html

2.採集nginx產生的日誌,日誌格式爲user ip  time  url   htmlID 天天產生的文件數量上億條,請設計方案把數據保存到hdfs上,並提供一下實時查詢功能(相應時間小於3s)?node

  a  某個用戶某天訪問某個URL的次數nginx

  b  某個URL某天被訪問的總次數數據結構

3.datanode首次加入cluster的時候,若是log報告不兼容文件版本,那須要namenode執行格式化操做,這樣處理的緣由是?oop

4.描述Hbase中scan和get的功能以及實現的異同?url

5.簡述Hbase數據操做步驟以及Hlog功能?設計

6.hadoop中job和task之間的區別是什麼?日誌

7.hadoop節點動態上線下線怎麼操做?htm

8.hbase二級索引的描述,哪些是正確的()a 核心是倒排序 b 二級索引概念是對應Rowkey這個「一級」索引 c 二級索引使用平衡二叉樹  d 二級索引使用LSM結構排序

9.mapreduce與hbase的關係,哪些描述是正確的?()a 2者不可或缺,mapreduce是hbase能夠正常運行的保證    b  2者不是強關聯,沒有mapreduce,hbase能夠正常運行c ···········mapreduce能夠直接訪問hbaes   d  他們沒有任何關係

10.hbase依賴?提供消息通訊機制   a  zookeeper  b chubby    c RPC   d    Socket

11 hfile數據格式中的metaindex字段用於?  a   meta快的長度   b  meta快的結束點   c  meta快的數據結構     d   meta塊的起始點

12secondryNamenode?個正確      a  

相關文章
相關標籤/搜索