hadoop常見問題

Hadoop上機做業html

  1. hadoop的官方網址是?

http://hadoop.apache.org/java

  1. Apache基金是什麼?

 Apache軟件基金會(也就是Apache Software Foundation,簡稱爲ASF),是專門爲支持開源軟件項目而辦的一個非盈利性組織。在它所支持的Apache項目與子項目中,所發行的軟件產品都遵循Apache許可證(Apache License)。node

  1. Apache Hadoop  是什麼?

Apache Hadoop是一個軟件平臺,可讓你很容易地開發和運行處理海量數據的應用。Hadoop是MapReduce的開源實現,它使用了Hadoop分佈式文件系統(HDFS)。MapReduce將應用切分爲許多小任務塊去執行。出於保證可靠性的考慮,HDFS會爲數據塊建立多個副本,並放置在羣的計算節點中,MapReduce就在數據副本存放的地方進行處理linux

對於一個大文件,hadoop把它切割成一個個大小爲64Mblock。這些block是以普通文件的形式存儲在各個節點上的。默認狀況下,每一個block都會有3個副本。經過此種方式,來達到數據安全。就算一臺機器down掉,系統可以檢測,自動選擇一個新的節點複製一份。c++

在hadoop中,有一個master node和多個data node。客戶端執行查詢之類的操做,只需與master node(也就是平時所說的元數據服務器)交互,得到須要的文件操做信息,而後與data node通訊,進行實際數據的傳輸。程序員

master(好比down掉)在啓動時,經過從新執行原先的操做來構建文件系統的結構樹。因爲結構樹是在內存中直接存在的,所以查詢操做效率很高。apache

  1. 什麼叫大數據?

簡言之,從各類各樣類型的數據中,快速得到有價值信息的能力,就是大數據技術。明白這一點相當重要,也正是這一點促使該技術具有走向衆多企業的潛力。編程

  大數據的4個「V」,或者說特色有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日誌、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻爲例,連續不間斷監控過程當中,可能有用的數據僅僅有一兩秒。第四,處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有着本質的不一樣。業界將其概括爲4個「V」——Volume,Variety,Value,Velocity。安全

  物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍及地球各個角落的各類各樣的傳感器,無一不是數據來源或者承載的方式服務器

  1. 什麼叫分佈式文件系統?

分佈式文件系統(Distributed File System)是指文件系統管理的物理存儲資源不必定直接鏈接在本地節點上,而是經過計算機網絡與節點相連。分佈式文件系統的設計基於客戶機/服務器模式。一個典型的網絡可能包括多個供多用戶訪問的服務器。另外,對等特性容許一些系統扮演客戶機和服務器的雙重角色。例如,用戶能夠「發表」一個容許其餘客戶機訪問的目錄,一旦被訪問,這個目錄對客戶機來講就象使用本地驅動器同樣,下面是三個基本的分佈式文件系統。

 

  1. Hadoop的分佈式文件系統是?他的特色是?

HDFS  特色:HDFS支持傳統的層次型文件組織,與大多數其餘文件系統相似,用戶能夠建立目錄,並在其間建立、刪除、移動和重命名文件。HDFS不支持user quotas和訪問權限,也不支持連接(link),不過當前的架構並不排除實現這些特性。Namenode維護文件系統的namespace,任何對文件系統namespace和文件屬性的修改都將被Namenode記錄下來。應用能夠設置HDFS保存的文件的副本數目,文件副本的數目稱爲文件的 replication因子,這個信息也是由Namenode保存。

  1. 7.     hadoop架構由哪些組成?

HDFS採用master/slave架構。一個HDFS集羣是有一個Namenode和必定數目的Datanode組成。Namenode是一箇中心服務器,負責管理文件系統的namespace和客戶端對文件的訪問。Datanode在集羣中通常是一個節點一個,負責管理節點上它們附帶的存儲。在內部,一個文件其實分紅一個或多個block,這些block存儲在Datanode集合裏。Namenode執行文件系統的namespace操做,例如打開、關閉、重命名文件和目錄,同時決定block到具體Datanode節點的映射。Datanode在Namenode的指揮下進行block的建立、刪除和複製。Namenode和Datanode都是設計成能夠跑在普通的廉價的運行linux的機器上。HDFS採用java語言開發,所以能夠部署在很大範圍的機器上。一個典型的部署場景是一臺機器跑一個單獨的Namenode節點,集羣中的其餘機器各跑一個Datanode實例。這個架構並不排除一臺機器上跑多個Datanode,不過這比較少見。

  1. Hadoop可使用哪些企業?

大中型企業

  1. Hadoop 主要解決什麼問題?

主要解決了海量數據的存儲、分析和學習問題,由於隨着數據的爆炸式增加,一味地靠硬件提升數據處理效率及增長存儲量,不只成本高,處理高維數據的效率也不會提升不少,遇到了瓶頸了,hadoop的搭建只須要普通的pc機,它的hdfs提供了分佈式文件系統,mapreduce是一個並行編程模型,爲程序員提供了編程接口,二者都屏蔽了分佈式及並行底層的細節問題,用戶使用起來簡單方便。

  1. 下載Hadoop 開發者第一期資料?

http://wenku.baidu.com/view/ee15650abb68a98271fefaef.html

  1. Hadoop支持什麼開發語言?

Java c++

  1. Hadoop中那個是google的gfs的開原實現?
  2. Hadoop中???是Google的bigtable的開源實現
HDFS是Google File System(GFS)的開源實現。
MapReduce是Google MapReduce的開源實現。
HBase是Google BigTable的開源實現。 

  Hadoop主要包括HDFS(分佈式文件系統,對應GFS),MapReduce(分佈式計算系統)和HBase(分佈式查詢系統,對應Bigtable),其中以HDFS和MapReduce較爲成熟。另外,Hadoop還包括一些輔助系統,如分佈式鎖服務ZooKeeper,對應Google Chubby。這一套系統的設計目標以下:  1. 簡化運維:在大規模集羣中,機器宕機,網絡異常,磁盤錯都屬於正常現象,所以錯誤檢查,自動恢復是核心架構目標。Google的解決方案就已經作到了機器隨時加入/離開集羣。  2. 高吞吐量:高吞吐量和低延遲是兩個矛盾的目標,Hadoop優先追求高吞吐量,設計和實現中採用了小操做合併,基於操做日誌的更新等提升吞吐量的技術。  3. 節省機器成本:Hadoop鼓勵部署時利用大容量的廉價機器(性價比高可是機器故障機率大),數據的存儲和服務也分爲HDFS和HBase兩個層次,從而最大限制地利用機器資源。  4. 採用單Master的設計:單Master的設計極大地簡化了系統的設計和實現,由此帶來了機器規模限制和單點失效問題。對於機器規模問題,因爲Hadoop是數據/計算密集型系統,而不是元數據密集型系統,單Master設計的單個集羣能夠支持成千上萬臺機器,對於如今的幾乎全部應用都不成問題;而單點失效問題能夠經過分佈式鎖服務或其它機制有效地解決。

相關文章
相關標籤/搜索