大數據面試（大數據整理）

時間 2019-11-21

原文原文鏈接

1.簡述大數據的生態組件html

　　參考連接：node

　　http://wenku.baidu.com/link?url=OYTVLe1e5zvBn8CBy4TSmoRkg4See5GEoX8h8bHcwGBsMKeJCiet7Pr7G_hrc6Q-SHZwMWU0fDrcufpatVgIPfsYgsX3FS1doMI0G4iJoE50A9rJmh2wSc3BYcx_6SBJlinux

2.簡要描述如何配置一個apache的hadoop分佈式算法

　　http://www.cnblogs.com/juncaoit/p/5874568.htmlapache

　　注意點：jdk的安裝緩存

3.mapreduce的原理網絡

　　"Map（映射）"和"Reduce（歸約），以及中間的shuffle過程app

　　能夠分紅5個部分來說解分佈式

4.講述combiner與partition的做用oop

　　combine的做用是map端的reduce聚合

　　partition的做用是分區，知道key到哪個reduce

5.講述hadoop怎麼實現二次排序

　　講key與value進行合併來造成新的key，定義新的數據類型

6.hadoop啓動的進程，以及做用

　　hdfs

　　yarn

　　history

7.hdfs的數據壓縮算法

　　參考連接：

　　http://blog.csdn.net/yangbutao/article/details/8474731

8.使用mapreduce處理數據傾斜？

　　map /reduce程序執行時，reduce節點大部分執行完畢，可是有一個或者幾個reduce節點運行很慢，致使整個程序的處理時間很長，這是由於某一個key的條數比其餘key多不少（有時是百倍或者千倍之多），這條key所在的reduce節點所處理的數據量比其餘節點就大不少，從而致使某幾個節點遲遲運行不完，此稱之爲數據傾斜。

　　能夠進行二次排序。（。。。。。。。。）

9.datanode什麼狀況下不會進行備份

　　在配置文件中datanode的數量設置爲1時

10.hdfs的體系結構

11.介紹/etc下的配置文件

　　/etc/sysconfig/network 修改主機名

　　/etc/hosts 網絡的修改

　　/etc/sysconfig/network-scripts/ifcfg-eth0 網關的修改

　　/etc/sysconfig/selinux 權限的修改

　　/etc/ntp.conf 同步時間

12.描述hadoop中哪些地方使用了緩存技術，做用分別是什麼？

　　Shuffle中

13.請隨意使用各類類型的腳本語言實現：批量將指定目錄下的全部文件中的$HADOOP_HOME$替換成/home/ocetl/app/hadoop

　　find /home/ocetl/app/hadoop -exec sed -i 's/\$HADOOP_HOME\$/\/home\/ocetl\/app\/hadoop/g' {} \;

14.Yarn中運行應用程序的基本流程

15.hdfs的存儲機制

　　HDFS主要是一個分佈式的文件存儲系統，由namenode來接收用戶的操做請求，而後根據文件大小，以及定義的block塊的大小，將大的文件切分紅多個block塊來進行保存。

　　在HDFS中，文件的讀寫過程就是client和NameNode以及DataNode一塊兒交互的過程。咱們已經知道NameNode管理着文件系統的元數據，DataNode存儲的是實際的數據，那麼client就會聯繫NameNode以獲取文件的元數據，而真正的文件讀取操做是直接和DataNode進行交互的。

　　參考連接：

　　　　http://www.2cto.com/database/201412/357371.html

16.mapreduce中建立DataWritable的做用是什麼？

17.實現top10

　　http://blog.csdn.net/mylittlered/article/details/43272013

18.mapreduce開發中使用過哪些算法

　　單詞統計pv

　　數據去重uv

　　topn 最受歡迎的排序

19.map中如何調用reduce的？

　　。。。。。。。。。。