1. 簡述Hadoop平臺的起源、發展歷史與應用現狀。web
列舉發展過程當中重要的事件、主要版本、主要廠商;數據庫
國內外Hadoop應用的典型案例。apache
(1)Hadoop起源api
Hadoop最先起源於Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨着抓取網頁數量的增長,遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。
2003年、2004年穀歌發表的兩篇論文爲該問題提供了可行的解決方案。
——分佈式文件系統(GFS),可用於處理海量網頁的存儲
——分佈式計算框架MAPREDUCE,可用於處理海量網頁的索引計算問題。
Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE,並從Nutch中剝離成爲獨立項目HADOOP,到2008年1月,HADOOP成爲Apache頂級項目(同年,cloudera公司成立),迎來了它的快速發展期。
狹義上來講,hadoop就是單獨指代hadoop這個軟件,
廣義上來講,hadoop指代大數據的一個生態圈,包括不少其餘的軟件服務器
2003-2004年,Google公佈了部分GFS和MapReduce思想的細節,受此啓發的Doug Cutting等人用2年的業餘時間實現了DFS和MapReduce機制,使Nutch性能飆升。而後Yahoo招安Doug Gutting及其項目。
2005年,Hadoop做爲Lucene的子項目Nutch的一部分正式引入Apache基金會。
2006年2月被分離出來,成爲一套完整獨立的軟件,起名爲Hadoop
Hadoop名字不是一個縮寫,而是一個生造出來的詞。是Hadoop之父Doug Cutting兒子毛絨玩具象命名的。
Hadoop的成長過程
Lucene–>Nutch—>Hadoop
總結起來,Hadoop起源於Google的三大論文
GFS:Google的分佈式文件系統Google File System
MapReduce:Google的MapReduce開源分佈式並行計算框架
BigTable:一個大型的分佈式數據庫
演變關係
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase框架
(2)Hadoop的發展歷史
Hadoop大事記
2004年— 最初的版本(如今稱爲HDFS和MapReduce)由Doug Cutting和Mike Cafarella開始實施。
2005年12月— Nutch移植到新的框架,Hadoop在20個節點上穩定運行。
2006年1月— Doug Cutting加入雅虎。
2006年2月— Apache Hadoop項目正式啓動以支持MapReduce和HDFS的獨立發展。
2006年2月— 雅虎的網格計算團隊採用Hadoop。
2006年4月— 標準排序(10 GB每一個節點)在188個節點上運行47.9個小時。
2006年5月— 雅虎創建了一個300個節點的Hadoop研究集羣。
2006年5月— 標準排序在500個節點上運行42個小時(硬件配置比4月的更好)。
2006年11月— 研究集羣增長到600個節點。
2006年12月— 標準排序在20個節點上運行1.8個小時,100個節點3.3小時,500個節點5.2小時,900個節點7.8個小時。
2007年1月— 研究集羣到達900個節點。
2007年4月— 研究集羣達到兩個1000個節點的集羣。
2008年4月— 贏得世界最快1TB數據排序在900個節點上用時209秒。
2008年7月— 雅虎測試節點增長到4000個
2008年9月— Hive成爲Hadoop的子項目
2008年11月— Google宣佈其MapReduce用68秒對1TB的程序進行排序
2008年10月— 研究集羣天天裝載10TB的數據。
2008年— 淘寶開始投入研究基於Hadoop的系統–雲梯。雲梯總容量約9.3PB,共有1100臺機器,天天處理18000道做業,掃描500TB數據。
2009年3月— 17個集羣總共24 000臺機器。
2009年3月— Cloudera推出CDH(Cloudera’s Dsitribution Including Apache Hadoop)
2009年4月— 贏得每分鐘排序,雅虎59秒內排序500 GB(在1400個節點上)和173分鐘內排序100 TB數據(在3400個節點上)。
2009年5月— Yahoo的團隊使用Hadoop對1 TB的數據進行排序只花了62秒時間。
2009年7月— Hadoop Core項目改名爲Hadoop Common;
2009年7月— MapReduce 和 Hadoop Distributed File System (HDFS) 成爲Hadoop項目的獨立子項目。
2009年7月— Avro 和 Chukwa 成爲Hadoop新的子項目。
2009年9月— 亞聯BI團隊開始跟蹤研究Hadoop
2009年12月—亞聯提出橘雲戰略,開始研究Hadoop
2010年5月— Avro脫離Hadoop項目,成爲Apache頂級項目。
2010年5月— HBase脫離Hadoop項目,成爲Apache頂級項目。
2010年5月— IBM提供了基於Hadoop 的大數據分析軟件——InfoSphere BigInsights,包括基礎版和企業版。
2010年9月— Hive( Facebook) 脫離Hadoop,成爲Apache頂級項目。
2010年9月— Pig脫離Hadoop,成爲Apache頂級項目。
2011年1月— ZooKeeper 脫離Hadoop,成爲Apache頂級項目。
2011年3月— Apache Hadoop得到Media Guardian Innovation Awards 。
2011年3月— Platform Computing 宣佈在它的Symphony軟件中支持Hadoop MapReduce API。
2011年5月— Mapr Technologies公司推出分佈式文件系統和MapReduce引擎——MapR Distribution for Apache Hadoop。
2011年5月— HCatalog 1.0發佈。該項目由Hortonworks 在2010年3月份提出,HCatalog主要用於解決數據存儲、元數據的問題,主要解決HDFS的瓶頸,它提供了一個地方來存儲數據的狀態信息,這使得 數據清理和歸檔工具能夠很容易的進行處理。
2011年4月— SGI( Silicon Graphics International )基於SGI Rackable和CloudRack服務器產品線提供Hadoop優化的解決方案。
2011年5月— EMC爲客戶推出一種新的基於開源Hadoop解決方案的數據中心設備——GreenPlum HD,以助其知足客戶日益增加的數據分析需求並加快利用開源數據分析軟件。Greenplum是EMC在2010年7月收購的一家開源數據倉庫公司。
2011年5月— 在收購了Engenio以後, NetApp推出與Hadoop應用結合的產品E5400存儲系統。
2011年6月— Calxeda公司(以前公司的名字是Smooth-Stone)發起了「開拓者行動」,一個由10家軟件公司組成的團隊將爲基於Calxeda即將推出的ARM系統上芯片設計的服務器提供支持。併爲Hadoop提供低功耗服務器技術。
2011年6月— 數據集成供應商Informatica發佈了其旗艦產品,產品設計初衷是處理當今事務和社會媒體所產生的海量數據,同時支持Hadoop。
2011年7月— Yahoo!和硅谷風險投資公司 Benchmark Capital建立了Hortonworks 公司,旨在讓Hadoop更加魯棒(可靠),並讓企業用戶更容易安裝、管理和使用Hadoop。
2011年8月— Cloudera公佈了一項有益於合做夥伴生態系統的計劃——建立一個生態系統,以便硬件供應商、軟件供應商以及系統集成商能夠一塊兒探索如何使用Hadoop更好的洞察數據。
2011年8月— Dell與Cloudera聯合推出Hadoop解決方案——Cloudera Enterprise。Cloudera Enterprise基於Dell PowerEdge C2100機架服務器以及Dell Powe分佈式
(3)hadoop三大公司髮型版本介紹
1.免費開源版本apache:
http://hadoop.apache.org/
優勢:擁有全世界的開源貢獻者,代碼更新迭代版本比較快,
缺點:版本的升級,版本的維護,版本的兼容性,版本的補丁均可能考慮不太周到,學習能夠用,實際生產工做環境儘可能不要使用
apache全部軟件的下載地址(包括各類歷史版本):
http://archive.apache.org/dist/
2.免費開源版本hortonWorks:
https://hortonworks.com/
hortonworks主要是雅虎主導Hadoop開發的副總裁,帶領二十幾個核心成員成立Hortonworks,核心產品軟件HDP(ambari),HDF免費開源,而且提供一整套的web管理界面,供咱們能夠經過web界面管理咱們的集羣狀態,web管理界面軟件HDF網址(http://ambari.apache.org/)
3.軟件收費版本ClouderaManager:
https://www.cloudera.com/
cloudera主要是美國一家大數據公司在apache開源hadoop的版本上,經過本身公司內部的各類補丁,實現版本之間的穩定運行,大數據生態圈的各個版本的軟件都提供了對應的版本,解決了版本的升級困難,版本兼容性等各類問題,生產環境強烈推薦使用工具
二、MySql和Hadoop的安裝與配置的截圖。oop
2.1.成功安裝MySql並檢測是否能夠開啓性能
2.2 hadoop安裝和配置