1.雲計算就是不在一臺機器上,同時在好多臺機器上運算。其實不是不想複雜,真是有點浪費生命。node
2.分佈式的計算原則,移動計算而不是數據,由於機器不少,數據更多,彙總到一臺機器上作運算,不但機器資源沒有這麼強悍,並且也不效率。框架
3.yarn (yet another resource negotiation)主要是爲hadoop1計算框架解決資源(主要針對hdfs的cpu和內存)調度用的。分佈式
4.RM(resource manager)管理着多個NM(node manager),實際生產中RM和NN是分開的,緣由是他們都比較耗資源,尤爲是內存。NM和DN離的比較近,至少是在一個機架上。省了數據搬家的成本。oop
5.邏輯上來講NM和DN是能夠分離的,因此不啓動hdfs也能夠直接啓動yarn。啓動時它也會讀取slaves文件,因此在RM上用命令:start-yarn.sh就把全部集羣都啓動起來了。測試
6.hadoop一個包就包含了yarn,hdfs,mapreduce三個組件。只不過補充說下,着三個組件是相互獨立的,沒有誰必須跑在誰上面。雲計算
7.如何驗證yarn是否啓動了呢?start-yarn.sh/stop-yarn.sh後能夠查看的路徑:http://192.168.56.100:8088/,hdfs:http://192.168.56.100:50070日誌
8.下面咱們來跑一個mapreduce計算。orm
利用本機的mapreduce job程序測試,後查看生成的結果文件:內存
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /wcinput/input.text /wcoutput2
9.說個關鍵的,mapreduce要跑的話是須要把數據拉到本地來跑的,若是用yarn就不須要把數據拉到本地,而能夠把計算髮到數據附近去計算。hadoop
10.secondaryname是作checkpoint用的。
11.mapreduce形象的理解,按行拆,到多個機器map,map suffle,執行多個reduce,而後彙總。
12.好比舉個例子,mapreduce能夠作日誌的離線處理,實時處理用storm。
13.什麼是靈活,mapreduce不斷迭代跑出想要的結果就好了。
14.nn 和 rm能夠分開機器,dn 和 nm資源緊張的話也能夠不放一塊兒,只不過離的比較近些才行,好比放在同一個機架上。
15.