1、簡述Hadoop平臺的起源、發展歷史與應用現狀。數據庫
1.起源:編程
2003-2004年,Google公佈了部分GFS和MapReduce思想的細節,受此啓發的Doug Cutting等人用2年的業餘時間實現了DFS和MapReduce機制,使Nutch性能飆升。而後Yahoo招安Doug Gutting及其項目。
2005年,Hadoop做爲Lucene的子項目Nutch的一部分正式引入Apache基金會。
2006年2月被分離出來,成爲一套完整獨立的軟件,起名爲Hadoop
Hadoop名字不是一個縮寫,而是一個生造出來的詞。是Hadoop之父Doug Cutting兒子毛絨玩具象命名的。
Hadoop的成長過程
Lucene–>Nutch—>Hadoop服務器
總結起來,Hadoop起源於Google的三大論文
GFS:Google的分佈式文件系統Google File System
MapReduce:Google的MapReduce開源分佈式並行計算框架
BigTable:一個大型的分佈式數據庫架構
演變關係
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase框架
2.發展歷史分佈式
說到Hadoop的起源,不得不說到一個傳奇的IT公司—全球IT技術的引領者Google。Google(自稱)爲雲計算概念的提出者,在自身多年的搜索引擎業務中構建了突破性的GFS(Google File System),今後文件系統進入分佈式時代。工具
除此以外,Google在GFS上如何快速分析和處理數據方面開創了MapReduce並行計算框架,讓以往的高端服務器計算變爲廉價的x86集羣計算,也讓許多互聯網公司可以從IOE(IBM小型機、Oracle數據庫以及EMC存儲)中解脫出來,例如:淘寶早就開始了去IOE化的道路。然而,Google之因此偉大就在於獨享技術不如共享技術,在2002-2004年間以三大論文的發佈向世界推送了其雲計算的核心組成部分GFS、MapReduce以及BigTable。Google雖然沒有將其核心技術開源,可是這三篇論文已經向開源社區的大牛們指明瞭方向,一位大牛:Doug Cutting使用Java語言對Google的雲計算核心技術(主要是GFS和MapReduce)作了開源的實現。oop
後來,Apache基金會整合Doug Cutting以及其餘IT公司(如Facebook等)的貢獻成果,開發並推出了Hadoop生態系統。Hadoop是一個搭建在廉價PC上的分佈式集羣系統架構,它具備高可用性、高容錯性和高可擴展性等優勢。因爲它提供了一個開放式的平臺,用戶能夠在徹底不瞭解底層實現細節的情形下,開發適合自身應用的分佈式程序。性能
2004年12月。Google發表了MapReduce論文,MapReduce容許跨服務器集羣,運行超大規模並行計算。Doug Cutting意識到能夠用MapReduce來解決Lucene的擴展問題。大數據
Google發表了GFS論文。
Doug Cutting根據GFS和MapReduce的思想建立了開源Hadoop框架。
2006年1月,Doug Cutting加入Yahoo,領導Hadoop的開發。
Doug Cutting任職於Cloudera公司。
2009年7月,Doug Cutting當選爲Apache軟件基金會董事,2010年9月,當選爲chairman。
3.應用現狀(各大企業開發本身的發行版,併爲Apache Hadoop貢獻代碼列舉發展過程當中重要的事件、主要版本、主要廠商;國內外Hadoop應用的典型案例。)
Hadoop在國內主要以互聯網公司爲主,下面主要介紹大規模使用Hadoop或研究Hadoop的公司。
(1)百度
百度在2006年就關注了Hadoop並開始調研和使用,截止2012年,總的集羣規模超過7個集羣,單集羣超過2800臺機器節點,Hadoop機器總數超過15000臺機器,總的存儲容量超過100PB,已經使用的超過74PB,天天提交的做業數目超過6600個,天天的輸入數據量已經超過7500TB,輸出超過1700TB。
百度的Hadoop集羣爲整個公司的數據團隊大搜索團隊社區產品團隊廣告團隊,以及LBS團體提供統一的計算和存儲服務,主要應用包括:
數據挖掘與分析
日誌分析平臺
數據倉庫系統
推薦引擎系統
鳳巢廣告特徵抽取與建模
點擊計費和反做弊
用戶行爲分析系統
網盟策略的流式計算
同時百度在Hadoop的基礎上還開發了本身的日誌分析平臺、數據倉庫系統,以及統一C++編程接口,並對Hadoop深度改造,開發了Hadoop C++擴展HCE系統。
(2) 阿里巴巴
阿里巴巴的Hadoop集羣截止2012年大約3200臺服務器,物理CPU大約30000核心,總的內存100TB,總的存儲容量超過60PB,天天的做業數目超過150000個,天天hive query查詢大於6000,天天掃描數據量約爲7.5PB,天天掃描文件數約爲4億,存儲利用率大概爲80%,CPU利用率平均65%,峯值能夠達到80%。阿里的Hadoop集羣擁有150個用戶組,4500個集羣用戶,爲淘寶、天貓、一淘、聚划算、CBU、支付寶提供底層的基礎計算和存儲服務,主要應用包括:
數據平臺系統
搜索支撐
廣告系統
數據魔方
量子統計
淘數據
推薦引擎系統
搜索排行榜
同時爲了便於開發,還開發了WEB IDE繼承開發環境,使用的相關係統包括:Hive,Pig,Mahout,Hbase等。
(3) 騰訊
騰訊也是使用Hadoop最先的中國互聯網公司之一,截止2012年末,騰訊的Hadoop集羣機器總量超過5000臺,最大單集羣約爲2000個節點,並利用Hadoop-hive構建了本身的數據倉庫系統TDW,同時還開發了本身的TDW-IDE基礎開發環境。騰訊的Hadoop爲騰訊各個產品線提供基礎雲計算和雲存儲服務,支撐的領域包括如下產品:
騰訊社交廣告平臺
搜搜SOSO
拍拍網
騰訊微博
騰訊羅盤
QQ會員
騰訊遊戲支撐
QQ空間
朋友網
騰訊開放平臺
財付通
手機QQ
QQ音樂
(4)奇虎360
奇虎360主要使用Hadoop-hbase做爲其搜索引擎so.com的底層網頁存儲架構系統,360搜索的網頁可到千億記錄,數據量在PB級別。截止2012年末,其Hbase集羣規模超過300節點,region個數大於10萬個,使用的平臺版本爲:
HBase版本:facebook 0.89-fb
HDFS版本: facebook Hadoop-20
奇虎360在Hadoop-Hbase方面的工做主要爲了優化減小Hbase集羣的啓停時間,並優化減小RS異常退出後的恢復時間。
(5)華爲
華爲公司也是Hadoop重要貢獻公司之一,排在Google和Cisco的前面,華爲在Hadoop的HA方案,以及HBASE領域有深刻研究,並已經向業界推出了本身的基於Hadoop的大數據解決方案。
(6) 中國移動
中國移動於2010年5月正式推出大雲BigCloud1.0,集羣節點達到了1024。中國移動的大雲基於Hadoop的MapReduce實現了分佈式計算,並利用了HDFS來實現分佈式存儲,並開發了基於Hadoop的數據倉庫系統HugeTable,並行數據挖掘工具集BC-PDM,以及並行數據抽取轉化BC-ETL,對象存儲系統BC-ONestd等系統,並開源了本身的BC-Hadoop版本。
中國移動主要在電信領域應用Hadoop,其規劃的應用領域包括:
經分KPI集中運算
經分系統ETL/DM
結算系統
信令系統
雲計算資源池系統
物聯網應用系統
Email
IDC服務等
(7) 盤古搜索
盤古搜索主要使用Hadoop集羣做爲搜索引擎的基礎架構支撐系統,截止2013年初,集羣中機器數量總計超過380臺,存儲總量總計3.66PB,主要的應用包括:
網頁存儲
網頁解析
建索引
Pagerank計算
日誌統計分析
推薦引擎等
(8)即刻搜索(人民搜索)
即刻搜索也使用Hadoop做爲其搜索引擎的支撐系統,截止2013年,其Hadoop集羣規模總計超過500臺節點,配置爲雙路6核心CPU,48G內存,11*2T存儲,集羣總容量超過10PB,使用率在78%左右,天天處理讀取的數據量約爲500TB,峯值大於1P,平均約爲300TB。
即刻搜索在搜索引擎中使用sstable格式存儲網頁並直接將sstable文件存儲在HDFS上面,主要使用Hadoop pipes編程接口進行後續處理,也使用streaming接口處理數據,主要的應用包括:
網頁存儲
解析
建索引
推薦引擎
2、MySql和Hadoop的安裝與配置的截圖。
1.成功安裝MySql並檢測是否能夠開啓
2.成功安裝Hadoop並開啓,用jps查節點開啓狀況
3.配置完Hadoop僞分佈式查看位於hdfs的輸出結果並下載到本地查看