Hadoop 之初識Hadoop


  • Hadoop歷史編程

        雛形開始於2002年的Apache的Nutch,Nutch是一個開源Java 實現的搜索引擎。它提供了咱們運行本身的搜索引擎所需的所有工具。包括全文搜索和Web爬蟲。數組

        隨後在2003年Google發表了一篇技術學術論文谷歌文件系統(GFS)。GFS也就是google File System,google公司爲了存儲海量搜索數據而設計的專用文件系統。服務器

        2004年Nutch創始人Doug Cutting基於Google的GFS論文實現了分佈式文件存儲系統名爲NDFS。分佈式

        2004年Google又發表了一篇技術學術論文MapReduce。MapReduce是一種編程模型,用於大規模數據集(大於1TB)的並行分析運算。工具

        2005年Doug Cutting又基於MapReduce,在Nutch搜索引擎實現了該功能。oop

        2006年,Yahoo僱用了Doug Cutting,Doug Cutting將NDFS和MapReduce升級命名爲Hadoop,Yahoo開建了一個獨立的團隊給Goug Cutting專門研究發展Hadoop。大數據

        不得不說Google和Yahoo對Hadoop的貢獻功不可沒。搜索引擎

 

  • Hadoop核心google

        Hadoop的核心就是HDFS和MapReduce,而二者只是理論基礎,不是具體可以使用的高級應用,Hadoop旗下有不少經典子項目,好比HBase、Hive等,這些都是基於HDFS和MapReduce發展出來的。要想了解Hadoop,就必須知道HDFS和MapReduce是什麼。spa

 

  • HDFS

HDFS(Hadoop Distributed File System,Hadoop分佈式文件系統),它是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,適合那些有着超大數據集(large data set)的應用程序。

 

HDFS的設計特色是:

一、大數據文件,很是適合上T級別的大文件或者一堆大數據文件的存儲,若是文件只有幾個G甚至更小就沒啥意思了。

二、文件分塊存儲,HDFS會將一個完整的大文件平均分塊存儲到不一樣計算器上,它的意義在於讀取文件時能夠同時從多個主機取不一樣區塊的文件,多主機讀取比單主機讀取效率要高得多得都。

三、流式數據訪問,一次寫入屢次讀寫,這種模式跟傳統文件不一樣,它不支持動態改變文件內容,而是要求讓文件一次寫入就不作變化,要變化也只能在文件末添加內容。

四、廉價硬件,HDFS能夠應用在普通PC機上,這種機制可以讓給一些公司用幾十臺廉價的計算機就能夠撐起一個大數據集羣。

五、硬件故障,HDFS認爲全部計算機均可能會出問題,爲了防止某個主機失效讀取不到該主機的塊文件,它將同一個文件塊副本分配到其它某幾個主機上,若是其中一臺主機失效,能夠迅速找另外一塊副本取文件。

 

HDFS的關鍵元素:

Block:將一個文件進行分塊,一般是64M。

NameNode:保存整個文件系統的目錄信息、文件信息及分塊信息,這是由惟一一臺主機專門保存,固然這臺主機若是出錯,NameNode就失效了。在Hadoop2.*開始支持activity-standy模式----若是主NameNode失效,啓動備用主機運行NameNode。

DataNode:分佈在廉價的計算機上,用於存儲Block塊文件。


 

 

  • MapReduce

通俗說MapReduce是一套從海量·源數據提取分析元素最後返回結果集的編程模型,將文件分佈式存儲到硬盤是第一步,而從海量數據中提取分析咱們須要的內容就是MapReduce作的事了。

 

下面以一個計算海量數據最大值爲例:一個銀行有上億儲戶,銀行但願找到存儲金額最高的金額是多少,按照傳統的計算方式,咱們會這樣:

Java代碼  收藏代碼

  1. Long moneys[] ...  

  2. Long max = 0L;  

  3. for(int i=0;i<moneys.length;i++){  

  4.   if(moneys[i]>max){  

  5.     max = moneys[i];  

  6.   }  

  7. }  

 

 若是計算的數組長度少的話,這樣實現是不會有問題的,仍是面對海量數據的時候就會有問題。

MapReduce會這樣作:首先數字是分佈存儲在不一樣塊中的,以某幾個塊爲一個Map,計算出Map中最大的值,而後將每一個Map中的最大值作Reduce操做,Reduce再取最大值給用戶。


        MapReduce的基本原理就是:將大的數據分析分紅小塊逐個分析,最後再將提取出來的數據彙總分析,最終得到咱們想要的內容。固然怎麼分塊分析,怎麼作Reduce操做很是複雜,Hadoop已經提供了數據分析的實現,咱們只須要編寫簡單的需求命令便可達成咱們想要的數據。

 

 

  • 總結

        總的來講Hadoop適合應用於大數據存儲和大數據分析的應用,適合於服務器幾千臺到幾萬臺的集羣運行,支持PB級的存儲容量。

        Hadoop典型應用有:搜索、日誌處理、推薦系統、數據分析、視頻圖像分析、數據保存等。

        但要知道,Hadoop的使用範圍遠小於SQL或Python之類的腳本語言,因此不要盲目使用Hadoop

相關文章
相關標籤/搜索