1.簡述大數據的生態組件html
參考連接:node
http://wenku.baidu.com/link?url=OYTVLe1e5zvBn8CBy4TSmoRkg4See5GEoX8h8bHcwGBsMKeJCiet7Pr7G_hrc6Q-SHZwMWU0fDrcufpatVgIPfsYgsX3FS1doMI0G4iJoE50A9rJmh2wSc3BYcx_6SBJlinux
2.簡要描述如何配置一個apache的hadoop分佈式算法
http://www.cnblogs.com/juncaoit/p/5874568.htmlapache
注意點:jdk的安裝緩存
3.mapreduce的原理網絡
"Map(映射)"和"Reduce(歸約),以及中間的shuffle過程app
能夠分紅5個部分來說解分佈式
4.講述combiner與partition的做用oop
combine的做用是map端的reduce聚合
partition的做用是分區,知道key到哪個reduce
5.講述hadoop怎麼實現二次排序
講key與value進行合併來造成新的key,定義新的數據類型
6.hadoop啓動的進程,以及做用
hdfs
yarn
history
7.hdfs的數據壓縮算法
參考連接:
http://blog.csdn.net/yangbutao/article/details/8474731
8.使用mapreduce處理數據傾斜?
map /reduce程序執行時,reduce節點大部分執行完畢,可是有一個或者幾個reduce節點運行很慢,致使整個程序的處理時間很長,這是由於某一個key的條數比其餘key多不少(有時是百倍或者千倍之多),這條key所在的reduce節點所處理的數據量比其餘節點就大不少,從而致使某幾個節點遲遲運行不完,此稱之爲數據傾斜。
能夠進行二次排序。(。。。。。。。。)
9.datanode什麼狀況下不會進行備份
在配置文件中datanode的數量設置爲1時
10.hdfs的體系結構
11.介紹/etc下的配置文件
/etc/sysconfig/network 修改主機名
/etc/hosts 網絡的修改
/etc/sysconfig/network-scripts/ifcfg-eth0 網關的修改
/etc/sysconfig/selinux 權限的修改
/etc/ntp.conf 同步時間
12.描述hadoop中哪些地方使用了緩存技術,做用分別是什麼?
Shuffle中
13.請隨意使用各類類型的腳本語言實現:批量將指定目錄下的全部文件中的$HADOOP_HOME$替換成/home/ocetl/app/hadoop
find /home/ocetl/app/hadoop -exec sed -i 's/\$HADOOP_HOME\$/\/home\/ocetl\/app\/hadoop/g' {} \;
14.Yarn中運行應用程序的基本流程
15.hdfs的存儲機制
HDFS主要是一個分佈式的文件存儲系統,由namenode來接收用戶的操做請求,而後根據文件大小,以及定義的block塊的大小,將大的文件切分紅多個block塊來進行保存。
在HDFS中,文件的讀寫過程就是client和NameNode以及DataNode一塊兒交互的過程。咱們已經知道NameNode管理着文件系統的元數據,DataNode存儲的是實際的數據,那麼client就會聯繫NameNode以獲取文件的元數據,而真正的文件讀取操做是直接和DataNode進行交互的。
參考連接:
http://www.2cto.com/database/201412/357371.html
16.mapreduce中建立DataWritable的做用是什麼?
17.實現top10
http://blog.csdn.net/mylittlered/article/details/43272013
18.mapreduce開發中使用過哪些算法
單詞統計pv
數據去重uv
topn 最受歡迎的排序
19.map中如何調用reduce的?
。。。。。。。。。。