Hadoop 之面試題

時間 2019-11-25

標籤 hadoop 面試欄目 Hadoop 简体版

原文原文鏈接

顏色區別：藍色：hive,橙色：Hbase。黑色hadoopjava

請簡述hadoop怎樣實現二級排序．node

你認爲用Java,Streaming,pipe 方式開發map/reduce,各有哪些優缺點：python

6. 請列出在你之前工做中所使用過的開發map /reduce的語言
java：
scala:
python:
shell:mysql

7.當前日誌採樣格式爲
a,b,c,d
b,b,f,e
a,a,c,f
請用最熟悉的語言編寫一個map/reduce 程序，計算第四列每一個元素出現的個數：linux

14.某個目錄下有兩個文件a.txt和b.txt，文件格式爲(ip username)例如：web

a.txt
127.0.0.1 zhangsan
127.0.0.1 wangxiaoer
127.0.0.2 lisi
127.0.0.3 wangwu面試

b.txt
127.0.0.4 lixiaolu
127.0.0.1 lisi算法

每一個文件至少有100萬行，請使用linux命令行完成以下工做：sql

a. 兩個文件名各自的ip數，以及總ip 數shell

b.出如今b.txt而沒有出如今a.txt的ip

c.每一個username出現的次數以及每一個username 對應的ip數

30.hbase flush的過程

35.sqoop 在導入數據到mysql 中，如何讓數據不重複導入？若是存在

數據問題，sqoop 如何處理？

41.MapReduce開發能力

請參照wordcount實現一個本身的mapreduce，需求爲：
a 輸入文件格式：
xxx,xxx,xxx,xxx,xxx,xxx,xxx

b 輸出文件格式：
xxx,20

xxx,30

xxx.40

c 功能：根據命令行參數統計輸入文件中指定關鍵字出現的次數，並展現出來
例如：hadoop jar xxxxx.jar keywordcount xxx,xxx,xxx,xxx(四個關鍵字）

47.設計一套系統，使之可以從不斷增長的不一樣的數據源中，提取指定格式的數據。

要求：

1)、運行結果要能大體得知提取效果，並可據此持續改進提取方法；

2)、因爲數據來源的差別性，請給出可彈性配置的程序框架；

3)、數據來源可能有 Mysql,sqlserver 等；

4)、該系統具有持續挖掘的能力，即，可重複提取更多信息

51.用mapreduce實現sql語句 select count(x)from a group by b?

58.Hadoop 參數調優。cluser level :JVM ,map/redcue slots,job level:reducer#，memeroy, use combiner?user compression?

65.使用mapreduce來實現下面的實例

實例：如今10個文件夾，每一個文件夾都有1000000個url. 如今讓你找出top 10000url

67.如何確認hadoop 集羣的健康情況？

答：

----------------------------------------------------------------------

111.生產環境中爲何建議使用外部表

112.hadoop mapreduce 建立類 DataWritable 的做用是什麼？

113.爲何建立類DataWritable?

123.JAVA基礎類：

a.繼承：寫的一段代碼，讓寫出結果

b.引用對象和值對象

124.Linux 基礎：

a.find 用法

b. 給出一個文本：好比http://aaa.com

http://bbb.com

http://bbb.com

http://bbb.com

http://cccc.com

http://ccc.com

寫出shell統計，最後輸出結果：

aaa 1

ccc 2

bbb 3

要求結果還要排序

還有別的，也是比較基礎的

125.數據庫類：oracle查詢語句。

面試：講項目經驗：問的很細，給紙，筆，讓畫公司hadoop 的項目架構最後還讓本身

說幾條業務，而後通過平臺後，出來成什麼樣子。

Java方面：io輸入輸出流裏有哪些經常使用的類，還有webService，線程相關的知識

linux：問道jps命令，kill 命令，問awk,sed是幹什麼用的、還有hadoop 的一些經常使用命令

hadoop ：講hadoop1中map,shuffle,reduce的過程，其中問道map端和reduce

端溢寫（spill）的細節。

項目部署：問了項目是怎麼部署，代碼怎麼管理

137.用linux實現下列要求：

ip username

a.txt

210.121,123.12 zhangsan

34.23.56.78 lisi

11.56.56.72 wangge

b.txt

58.23.53.132 liuqi

34.23.56.78 liba

a.txt,b.txt中至少100萬行

1. a.txt,b.txt中各自的ip個數，ip的總個數

2.a.txt中存在的ip 而b.txt 中不存在的ip

3.每一個username 出現的總個數，每一個username對應的ip 個數。

150.對於mahout，如何進行推薦、分類、聚類、的代碼二次分發分別實現哪些接口。

151.請問下，直接將時間戳做爲行健，在寫入單個region時候會放生熱點問題，問什麼？

161.寫出你對zookeeper的理解

十6、來自 aboutyun 的面試題（6 道）

187.列出至少五種設計模式？用代碼或UML類圖描述其中兩種設計模式的原理？

200. 寫一個冒泡程序

205.以你的實際經驗，說下怎樣預防全表掃描

206.多線程

34. HADOOPHa集羣中，各個服務的啓動和關閉順序？
    啓動
    start-dfs.sh
    start-yarn.sh

315.NameNode中meta數據時存放在namenode 自身，仍是datanode等其餘節點？

DataNode節點自身是否有meta數據存在？

318.在HadoopHA集羣中，簡述Zookeeper 的主要做用，以及啓動和查看狀態的命令？

322.在hadoop 開發過程當中使用過哪些算法？其應用場景是什麼？

328.一臺機器如何應對那麼多的請求訪問，高併發到底怎麼實現，一個請求怎麼產生的，

在服務端怎麼處理的，最後怎麼返回給用戶的，整個的環節操做系統是怎麼控制的？

329.hdfs 的client端，複製到第三個副本事宕機，hdfs怎麼恢復保證下次寫第三副本？

350.habase怎麼預分區？

352.htable API 有沒有線程安全問題，在程序中是單例仍是多例？

367.你本身寫過udf函數麼？寫了哪些？

這個我沒有寫過

388.MapReduce 2.0中，MRAppMaster 主要做用是什麼。MRappMater 如何實現任務容錯？

389.爲何會產生yarn,它解決了什麼問題。有什麼優點？

393,。怎麼提高多個JOB同時執行帶來的壓力，如何優化，說說思路？

397.hadoop 體系結構(HDFS與mapreduce 的體系結構)、Hadoop 相比傳統數據存儲方式（好比mysql）的優點？

398.HDFS的namenode 與secondarynamenode 的工做原理（重點是日誌拉取和合並過程）hadoop1.x 的HDFS的HA方案(namenode 掛掉的狀況如何處理、datanode掛掉的狀況如何處理)？

405.MapReduce進階知識：Hadoop 的幾種文件格式、常見輸入輸出格式化類、多輸入多輸出機制、Mapredcue 的常見算法(各類join 原理和優缺點、次排序和總排序)？

430.寫出你對zookeeper的理解

提示：大部分分佈式應用須要一個主控、協調器或控制器來管理物理分佈的子進程（如資源、任務分配等）。目前，大部分應用須要開發私有的協調程序，缺少一個通用的機制協調陳谷的反覆編寫浪費，且難以造成通用、伸縮性好的協調器。

zookeeper：提供通用的分佈式鎖服務，用以協調分佈式應用。

。

456.舉例hadoop 中定義的最經常使用的inputformats。哪一個是默認的？

提示：Dbinputformat、fileinputformat （keyvalueTextInputFormat、NlineInputFormat、TextInputFormat）

默認：TextInputFormat

457.TextInputFormat 和KeyValueInputFormat類之間的不一樣之處在於哪裏？

提示：TextInputFormat中的key 表示行的偏移量，value是行文本內容

KeyValueInputFormat 的key value是經過第一個製表符進行劃分的

458.hadoop中的inputsplit是什麼？

提示：每一map任務單獨處理的數據單位，能夠決定單個mapper任務處理的大小。默認大小與block同樣大

459.hadoop框架中文件拆分時如何被觸發的？（block是怎麼處觸發）

提示：客戶端上傳文件時爲從NameNode申請的ID和位置

460.hadoop 中RecordReader的目的是什麼？

提示：將inputsplit的數據解析成鍵值對

463.什麼jobtracker?jobtracker有哪些特別的函數

提示：jobtracker負責接收用戶提交的做業，負責啓動、跟蹤任務執行。是一個RPC服務端

jobtracker有哪些特別的函數：Jobsubmit protocol

464.什麼是tasktracker?

提示：mr的客戶端，接收jobtracker的發出的指令，用來執行任務的

465.hadoop 中job和task之間是什麼關係？

提示：執行一次mr程序就是一個job,job再執行時會劃分 maptask，reducetask。

task 是job運行做業的一個重要組成部分。

466.假設hadoop 一個job產生100個task，而且其中的一個task失敗了，hadoop會怎樣處理？

提示：hadoop容錯機制，當一個任務執行失敗，jobTracker發送命令從新執行，若是從新執行四次也不行，任務執行失敗

mapred-site.xml配置文件裏

<name>mapred.max.attemp<name>

<value>4<value>

469.什麼是hadoop streaming?

提示：指的是用其餘語言處理

478.jvm 的4個引用

提示：強引用就是不會被GC回收軟引用在JVM報告內存不足時纔會被回收，弱引用與軟引用類似；虛引用是跟蹤對象被GC回收的狀態。

484.講一下垃圾回收算法

486.聚類算法

487.SSH鎖涉及到權限

490.兩個文件，每一都有幾百個億條數據，都有訂單字段，這兩個表如何關聯，效率最高？

492.java如何實現高併發？

493.HashMap、TreeMap區別，以及TreeMap原理

495.Spring 用過哪些組件？

496.若是有幾百億條數據，如何在表中存放？

502.javacore，多線程，jvm

506.Spark程序作了哪些配置

507.Spark哪些操做耗費內存

508.Spark架構

509.Drive做用

510.spark topN 怎麼寫

513.MR InputFormat

515.Impala爲何快

516.Impala的架構

517.自定義異常（java 部分）

518.線程狀態和ThreadLocal怎麼實現線程安全

519.JVM調優

520.SringMVC調用過程

521.Hibernate 二級緩存實現原理

522.Spring 事務傳播機制

524.爬幾家網站，都爬取哪些指標？

526.自定義分區

528.nohup

530.rowky 設計（爬蟲項目）

533.reids 和memstore區別

535.shuffle？看過源碼嗎？

537.python的map用法？

538.寫shell 腳本統計截取一個文本的指定字段？

541.數學建模用的什麼算法？

544.解釋一個類生成過程？

547.solr的索引在哪裏？

550.大家搭建集羣有沒有遇到丟失jar包

552.對solr的認識幹什麼用的怎麼創建索引？

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。