入門Hadoop---Hadoop是什麼？

時間 2019-11-21

標籤入門 hadoop 什麼欄目 Hadoop 简体版

原文原文鏈接

簡單歸納：Hadoop是由Apache組織使用Java語言開發的一款應對大數據存儲和計算的分佈式開源框架。html

Hadoop的起源

2003-2004年，Google公佈了部分GFS和MapReduce思想的細節，受此啓發的Doug Cutting等人用2年的業餘時間實現了DFS和MapReduce機制，使Nutch性能飆升。而後Yahoo招安Doug Gutting及其項目。
2005年，Hadoop做爲Lucene的子項目Nutch的一部分正式引入Apache基金會。
2006年2月被分離出來，成爲一套完整獨立的軟件，起名爲Hadoop
Hadoop名字不是一個縮寫，而是一個生造出來的詞。是Hadoop之父Doug Cutting兒子毛絨玩具象命名的。
Hadoop的成長過程
Lucene–>Nutch—>Hadoop數據庫

總結起來，Hadoop起源於Google的三大論文
GFS：Google的分佈式文件系統Google File System
MapReduce：Google的MapReduce開源分佈式並行計算框架
BigTable：一個大型的分佈式數據庫apache

演變關係
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBaseapi

Hadoop發展史

Hadoop大事記
2004年— 最初的版本(如今稱爲HDFS和MapReduce)由Doug Cutting和Mike Cafarella開始實施。
2005年12月— Nutch移植到新的框架，Hadoop在20個節點上穩定運行。
2006年1月— Doug Cutting加入雅虎。
2006年2月— Apache Hadoop項目正式啓動以支持MapReduce和HDFS的獨立發展。
2006年2月— 雅虎的網格計算團隊採用Hadoop。
2006年4月— 標準排序(10 GB每一個節點)在188個節點上運行47.9個小時。
2006年5月— 雅虎創建了一個300個節點的Hadoop研究集羣。
2006年5月— 標準排序在500個節點上運行42個小時(硬件配置比4月的更好)。
2006年11月— 研究集羣增長到600個節點。
2006年12月— 標準排序在20個節點上運行1.8個小時，100個節點3.3小時，500個節點5.2小時，900個節點7.8個小時。
2007年1月— 研究集羣到達900個節點。
2007年4月— 研究集羣達到兩個1000個節點的集羣。
2008年4月— 贏得世界最快1TB數據排序在900個節點上用時209秒。
2008年7月— 雅虎測試節點增長到4000個
2008年9月— Hive成爲Hadoop的子項目
2008年11月— Google宣佈其MapReduce用68秒對1TB的程序進行排序
2008年10月— 研究集羣天天裝載10TB的數據。
2008年— 淘寶開始投入研究基於Hadoop的系統–雲梯。雲梯總容量約9.3PB，共有1100臺機器，天天處理18000道做業，掃描500TB數據。
2009年3月— 17個集羣總共24 000臺機器。
2009年3月— Cloudera推出CDH（Cloudera’s Dsitribution Including Apache Hadoop）
2009年4月— 贏得每分鐘排序，雅虎59秒內排序500 GB(在1400個節點上)和173分鐘內排序100 TB數據(在3400個節點上)。
2009年5月— Yahoo的團隊使用Hadoop對1 TB的數據進行排序只花了62秒時間。
2009年7月— Hadoop Core項目改名爲Hadoop Common;
2009年7月— MapReduce 和 Hadoop Distributed File System (HDFS) 成爲Hadoop項目的獨立子項目。
2009年7月— Avro 和 Chukwa 成爲Hadoop新的子項目。
2009年9月— 亞聯BI團隊開始跟蹤研究Hadoop
2009年12月—亞聯提出橘雲戰略，開始研究Hadoop
2010年5月— Avro脫離Hadoop項目，成爲Apache頂級項目。
2010年5月— HBase脫離Hadoop項目，成爲Apache頂級項目。
2010年5月— IBM提供了基於Hadoop 的大數據分析軟件——InfoSphere BigInsights，包括基礎版和企業版。
2010年9月— Hive( Facebook) 脫離Hadoop，成爲Apache頂級項目。
2010年9月— Pig脫離Hadoop，成爲Apache頂級項目。
2011年1月— ZooKeeper 脫離Hadoop，成爲Apache頂級項目。
2011年3月— Apache Hadoop得到Media Guardian Innovation Awards 。
2011年3月— Platform Computing 宣佈在它的Symphony軟件中支持Hadoop MapReduce API。
2011年5月— Mapr Technologies公司推出分佈式文件系統和MapReduce引擎——MapR Distribution for Apache Hadoop。
2011年5月— HCatalog 1.0發佈。該項目由Hortonworks 在2010年3月份提出，HCatalog主要用於解決數據存儲、元數據的問題，主要解決HDFS的瓶頸，它提供了一個地方來存儲數據的狀態信息，這使得數據清理和歸檔工具能夠很容易的進行處理。
2011年4月— SGI( Silicon Graphics International )基於SGI Rackable和CloudRack服務器產品線提供Hadoop優化的解決方案。
2011年5月— EMC爲客戶推出一種新的基於開源Hadoop解決方案的數據中心設備——GreenPlum HD，以助其知足客戶日益增加的數據分析需求並加快利用開源數據分析軟件。Greenplum是EMC在2010年7月收購的一家開源數據倉庫公司。
2011年5月— 在收購了Engenio以後， NetApp推出與Hadoop應用結合的產品E5400存儲系統。
2011年6月— Calxeda公司(以前公司的名字是Smooth-Stone)發起了「開拓者行動」，一個由10家軟件公司組成的團隊將爲基於Calxeda即將推出的ARM系統上芯片設計的服務器提供支持。併爲Hadoop提供低功耗服務器技術。
2011年6月— 數據集成供應商Informatica發佈了其旗艦產品，產品設計初衷是處理當今事務和社會媒體所產生的海量數據，同時支持Hadoop。
2011年7月— Yahoo!和硅谷風險投資公司 Benchmark Capital建立了Hortonworks 公司，旨在讓Hadoop更加魯棒(可靠)，並讓企業用戶更容易安裝、管理和使用Hadoop。
2011年8月— Cloudera公佈了一項有益於合做夥伴生態系統的計劃——建立一個生態系統，以便硬件供應商、軟件供應商以及系統集成商能夠一塊兒探索如何使用Hadoop更好的洞察數據。
2011年8月— Dell與Cloudera聯合推出Hadoop解決方案——Cloudera Enterprise。Cloudera Enterprise基於Dell PowerEdge C2100機架服務器以及Dell PowerConnect 6248以太網交換機服務器

Hadoop的四大特性（優勢）

擴容能力（Scalable）：Hadoop是在可用的計算機集羣間分配數據並完成計算任務的，這些集羣可用方便的擴展到數以千計個節點中。
成本低（Economical）：Hadoop經過普通廉價的機器組成服務器集羣來分發以及處理數據，以致於成本很低。
高效率（Efficient）：經過併發數據，Hadoop能夠在節點之間動態並行的移動數據，使得速度很是快。
可靠性（Rellable）：能自動維護數據的多份複製，而且在任務失敗後能自動地從新部署（redeploy）計算任務。因此Hadoop的按位存儲和處理數據的能力值得人們信賴。系列傳送門學習官網： http://hadoop.apache.org/

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。