用最直白的語言告訴你，hadoop是什麼？

hadoop應歷史之潮流，隨着理論探索、科學技術試驗的不斷開展，hadoop終於2006年問世，驚天地泣鬼神！web

hadoop雛形開始於2002年的Apache的Nutch，Nutch是一個開源Java實現的搜索引擎。它提供了運行搜索引擎所需的所有工具。包括全文搜索和Web爬蟲。編程

在2003年Google發表了一篇技術學術論文谷歌文件系統（GFS）。GFS也就是google File System，是google公司爲了存儲海量搜索數據而設計的專用文件系統。架構

2004年Nutch創始人Doug Cutting基於Google的GFS論文實現了分佈式文件存儲系統名爲NDFS。app

2004年Google又發表了一篇技術學術論文MapReduce。MapReduce是一種編程模型，用於大規模數據集（大於1TB）的並行分析運算。分佈式

2005年Doug Cutting又基於MapReduce，在Nutch搜索引擎實現了該功能。工具

2006年，Yahoo僱用了Doug Cutting，Doug Cutting將NDFS和MapReduce升級命名爲Hadoop，Yahoo建立了一個獨立的團隊給Goug Cutting專門研究發展Hadoop。不得不說Google和Yahoo對Hadoop的貢獻功不可沒。oop

簡單地說來，Hadoop是一個能夠更容易開發和運行處理大規模數據的軟件平臺。其核心是HDFS和MapReduce。學習

HDFS（Hadoop Distributed File System，Hadoop分佈式文件系統），它是一個高度容錯性的系統，適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問，適合那些有着超大數據集（large data set）的應用程序，一句話來歸納的話：HDFS更加利於大量數據（通常在TB級別）的存取。MapReduce是一套從海量源數據提取分析元素最後返回結果集的編程模型，將文件分佈式存儲到硬盤是第一步，而從海量數據中提取分析咱們須要的內容就是MapReduce作的事了，一句話來歸納爲：MapReduce方便大量數據的計算。大數據

關於大數據的意義和價值，我認爲最精煉的一句話總結：大數據能夠直抵事件真相！互聯網時代數據量逐漸增大，聽說百度一天的搜索頁面量都在TB級別。以前的Apache架構，雖然可以對數據進行計算和存儲，可是遠遠不能知足現代量級，所以開發新的專門針對大數據處理的技術十分必要，這也是大數據相關技術，包括spark、hadoop等出現的背景條件。網站

hadoop技術發展到必定程度，能夠創建立體化的分析系統，其對象能夠爲消費者或者網站或者app，可以多角度全方位的分析大量數據，從而得出關於對象的事件真相，能夠舉一個例子解釋它的具體表現：將來，可能消費者不知道本身喜歡什麼，可是大數據可以經過他的歷史行爲，告訴他應該喜歡什麼。

我是大講臺的指導老師，大講臺，最落地的Hadoop在線學習機構，歡迎想學習數據分析的小夥伴，想學習Hadoop小夥伴，諮詢Hadoop學習問題。或者到網站（dajiangtai.con)諮詢。