大數據面試(大數據整理)

1.簡述大數據的生態組件html

  

  參考連接:node

  http://wenku.baidu.com/link?url=OYTVLe1e5zvBn8CBy4TSmoRkg4See5GEoX8h8bHcwGBsMKeJCiet7Pr7G_hrc6Q-SHZwMWU0fDrcufpatVgIPfsYgsX3FS1doMI0G4iJoE50A9rJmh2wSc3BYcx_6SBJlinux

  

2.簡要描述如何配置一個apache的hadoop分佈式算法

  http://www.cnblogs.com/juncaoit/p/5874568.htmlapache

  注意點:jdk的安裝緩存

 

3.mapreduce的原理網絡

  "Map(映射)"和"Reduce(歸約),以及中間的shuffle過程app

  能夠分紅5個部分來說解分佈式

 

4.講述combiner與partition的做用oop

  combine的做用是map端的reduce聚合

  partition的做用是分區,知道key到哪個reduce

  

 

5.講述hadoop怎麼實現二次排序

  講key與value進行合併來造成新的key,定義新的數據類型

  

 

6.hadoop啓動的進程,以及做用

  hdfs

  yarn

  history

 

7.hdfs的數據壓縮算法

  

  參考連接:

  http://blog.csdn.net/yangbutao/article/details/8474731

 

8.使用mapreduce處理數據傾斜?

  map /reduce程序執行時,reduce節點大部分執行完畢,可是有一個或者幾個reduce節點運行很慢,致使整個程序的處理時間很長,這是由於某一個key的條數比其餘key多不少(有時是百倍或者千倍之多),這條key所在的reduce節點所處理的數據量比其餘節點就大不少,從而致使某幾個節點遲遲運行不完,此稱之爲數據傾斜。

  能夠進行二次排序。(。。。。。。。。)

 

9.datanode什麼狀況下不會進行備份

  在配置文件中datanode的數量設置爲1時

 

10.hdfs的體系結構

  

  

11.介紹/etc下的配置文件

  /etc/sysconfig/network 修改主機名

  /etc/hosts 網絡的修改

  /etc/sysconfig/network-scripts/ifcfg-eth0 網關的修改

  /etc/sysconfig/selinux 權限的修改

  /etc/ntp.conf 同步時間

 

12.描述hadoop中哪些地方使用了緩存技術,做用分別是什麼?

  Shuffle中

 

13.請隨意使用各類類型的腳本語言實現:批量將指定目錄下的全部文件中的$HADOOP_HOME$替換成/home/ocetl/app/hadoop

  find /home/ocetl/app/hadoop -exec sed -i 's/\$HADOOP_HOME\$/\/home\/ocetl\/app\/hadoop/g' {} \;

 

14.Yarn中運行應用程序的基本流程

  

 

15.hdfs的存儲機制

  HDFS主要是一個分佈式的文件存儲系統,由namenode來接收用戶的操做請求,而後根據文件大小,以及定義的block塊的大小,將大的文件切分紅多個block塊來進行保存。

  在HDFS中,文件的讀寫過程就是client和NameNode以及DataNode一塊兒交互的過程。咱們已經知道NameNode管理着文件系統的元數據,DataNode存儲的是實際的數據,那麼client就會聯繫NameNode以獲取文件的元數據,而真正的文件讀取操做是直接和DataNode進行交互的。

  參考連接:

    http://www.2cto.com/database/201412/357371.html

 

16.mapreduce中建立DataWritable的做用是什麼?

  

17.實現top10

  http://blog.csdn.net/mylittlered/article/details/43272013

 

18.mapreduce開發中使用過哪些算法

  單詞統計pv

  數據去重uv

  topn 最受歡迎的排序

  

19.map中如何調用reduce的?

  。。。。。。。。。。

相關文章
相關標籤/搜索