hadoop應歷史之潮流,隨着理論探索、科學技術試驗的不斷開展,hadoop終於2006年問世,驚天地泣鬼神!web
hadoop雛形開始於2002年的Apache的Nutch,Nutch是一個開源Java實現的搜索引擎。它提供了運行搜索引擎所需的所有工具。包括全文搜索和Web爬蟲。編程
在2003年Google發表了一篇技術學術論文谷歌文件系統(GFS)。GFS也就是google File System,是google公司爲了存儲海量搜索數據而設計的專用文件系統。架構
2004年Nutch創始人Doug Cutting基於Google的GFS論文實現了分佈式文件存儲系統名爲NDFS。app
2004年Google又發表了一篇技術學術論文MapReduce。MapReduce是一種編程模型,用於大規模數據集(大於1TB)的並行分析運算。分佈式
2005年Doug Cutting又基於MapReduce,在Nutch搜索引擎實現了該功能。工具
2006年,Yahoo僱用了Doug Cutting,Doug Cutting將NDFS和MapReduce升級命名爲Hadoop,Yahoo建立了一個獨立的團隊給Goug Cutting專門研究發展Hadoop。不得不說Google和Yahoo對Hadoop的貢獻功不可沒。oop
簡單地說來,Hadoop是一個能夠更容易開發和運行處理大規模數據的軟件平臺。其核心是HDFS和MapReduce。學習
HDFS(Hadoop Distributed File System,Hadoop分佈式文件系統),它是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,適合那些有着超大數據集(large data set)的應用程序,一句話來歸納的話:HDFS更加利於大量數據(通常在TB級別)的存取。MapReduce是一套從海量源數據提取分析元素最後返回結果集的編程模型,將文件分佈式存儲到硬盤是第一步,而從海量數據中提取分析咱們須要的內容就是MapReduce作的事了,一句話來歸納爲:MapReduce方便大量數據的計算。大數據
關於大數據的意義和價值,我認爲最精煉的一句話總結:大數據能夠直抵事件真相!互聯網時代數據量逐漸增大,聽說百度一天的搜索頁面量都在TB級別。以前的Apache架構,雖然可以對數據進行計算和存儲,可是遠遠不能知足現代量級,所以開發新的專門針對大數據處理的技術十分必要,這也是大數據相關技術,包括spark、hadoop等出現的背景條件。網站
hadoop技術發展到必定程度,能夠創建立體化的分析系統,其對象能夠爲消費者或者網站或者app,可以多角度全方位的分析大量數據,從而得出關於對象的事件真相,能夠舉一個例子解釋它的具體表現:將來,可能消費者不知道本身喜歡什麼,可是大數據可以經過他的歷史行爲,告訴他應該喜歡什麼。
我是大講臺的指導老師,大講臺,最落地的Hadoop在線學習機構,歡迎想學習數據分析的小夥伴,想學習Hadoop小夥伴,諮詢Hadoop學習問題。或者到網站(dajiangtai.con)諮詢。