安裝關係型數據庫MySQL和大數據處理框架Hadoop

時間 2019-11-20

標籤安裝關係數據庫 mysql 數據處理框架 hadoop 欄目 SQL 简体版

原文原文鏈接

1、簡述Hadoop平臺的起源、發展歷史與應用現狀。數據庫

1.起源：編程

2003-2004年，Google公佈了部分GFS和MapReduce思想的細節，受此啓發的Doug Cutting等人用2年的業餘時間實現了DFS和MapReduce機制，使Nutch性能飆升。而後Yahoo招安Doug Gutting及其項目。
2005年，Hadoop做爲Lucene的子項目Nutch的一部分正式引入Apache基金會。
2006年2月被分離出來，成爲一套完整獨立的軟件，起名爲Hadoop
Hadoop名字不是一個縮寫，而是一個生造出來的詞。是Hadoop之父Doug Cutting兒子毛絨玩具象命名的。
Hadoop的成長過程
Lucene–>Nutch—>Hadoop服務器

總結起來，Hadoop起源於Google的三大論文
GFS：Google的分佈式文件系統Google File System
MapReduce：Google的MapReduce開源分佈式並行計算框架
BigTable：一個大型的分佈式數據庫架構

演變關係
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase框架

2.發展歷史分佈式

說到Hadoop的起源，不得不說到一個傳奇的IT公司—全球IT技術的引領者Google。Google(自稱)爲雲計算概念的提出者，在自身多年的搜索引擎業務中構建了突破性的GFS(Google File System)，今後文件系統進入分佈式時代。工具

除此以外，Google在GFS上如何快速分析和處理數據方面開創了MapReduce並行計算框架，讓以往的高端服務器計算變爲廉價的x86集羣計算，也讓許多互聯網公司可以從IOE(IBM小型機、Oracle數據庫以及EMC存儲)中解脫出來，例如：淘寶早就開始了去IOE化的道路。然而，Google之因此偉大就在於獨享技術不如共享技術，在2002-2004年間以三大論文的發佈向世界推送了其雲計算的核心組成部分GFS、MapReduce以及BigTable。Google雖然沒有將其核心技術開源，可是這三篇論文已經向開源社區的大牛們指明瞭方向，一位大牛：Doug Cutting使用Java語言對Google的雲計算核心技術(主要是GFS和MapReduce)作了開源的實現。oop

後來，Apache基金會整合Doug Cutting以及其餘IT公司(如Facebook等)的貢獻成果，開發並推出了Hadoop生態系統。Hadoop是一個搭建在廉價PC上的分佈式集羣系統架構，它具備高可用性、高容錯性和高可擴展性等優勢。因爲它提供了一個開放式的平臺，用戶能夠在徹底不瞭解底層實現細節的情形下，開發適合自身應用的分佈式程序。性能

2004年12月。Google發表了MapReduce論文，MapReduce容許跨服務器集羣，運行超大規模並行計算。Doug Cutting意識到能夠用MapReduce來解決Lucene的擴展問題。大數據

Google發表了GFS論文。

Doug Cutting根據GFS和MapReduce的思想建立了開源Hadoop框架。

2006年1月，Doug Cutting加入Yahoo，領導Hadoop的開發。

Doug Cutting任職於Cloudera公司。

2009年7月，Doug Cutting當選爲Apache軟件基金會董事，2010年9月，當選爲chairman。

3.應用現狀（各大企業開發本身的發行版，併爲Apache Hadoop貢獻代碼列舉發展過程當中重要的事件、主要版本、主要廠商；國內外Hadoop應用的典型案例。）

Hadoop在國內主要以互聯網公司爲主，下面主要介紹大規模使用Hadoop或研究Hadoop的公司。

（1）百度
百度在2006年就關注了Hadoop並開始調研和使用，截止2012年，總的集羣規模超過7個集羣，單集羣超過2800臺機器節點，Hadoop機器總數超過15000臺機器，總的存儲容量超過100PB，已經使用的超過74PB，天天提交的做業數目超過6600個，天天的輸入數據量已經超過7500TB，輸出超過1700TB。
百度的Hadoop集羣爲整個公司的數據團隊大搜索團隊社區產品團隊廣告團隊，以及LBS團體提供統一的計算和存儲服務，主要應用包括：
 數據挖掘與分析
 日誌分析平臺
 數據倉庫系統
 推薦引擎系統
 鳳巢廣告特徵抽取與建模
 點擊計費和反做弊
 用戶行爲分析系統
 網盟策略的流式計算
同時百度在Hadoop的基礎上還開發了本身的日誌分析平臺、數據倉庫系統，以及統一C++編程接口，並對Hadoop深度改造，開發了Hadoop C++擴展HCE系統。
（2）阿里巴巴
阿里巴巴的Hadoop集羣截止2012年大約3200臺服務器，物理CPU大約30000核心，總的內存100TB，總的存儲容量超過60PB，天天的做業數目超過150000個，天天hive query查詢大於6000，天天掃描數據量約爲7.5PB，天天掃描文件數約爲4億，存儲利用率大概爲80%，CPU利用率平均65%，峯值能夠達到80%。阿里的Hadoop集羣擁有150個用戶組，4500個集羣用戶，爲淘寶、天貓、一淘、聚划算、CBU、支付寶提供底層的基礎計算和存儲服務，主要應用包括：
 數據平臺系統
 搜索支撐
 廣告系統
 數據魔方
 量子統計
 淘數據
 推薦引擎系統
 搜索排行榜
同時爲了便於開發，還開發了WEB IDE繼承開發環境，使用的相關係統包括：Hive，Pig，Mahout，Hbase等。
（3）騰訊
騰訊也是使用Hadoop最先的中國互聯網公司之一，截止2012年末，騰訊的Hadoop集羣機器總量超過5000臺，最大單集羣約爲2000個節點，並利用Hadoop-hive構建了本身的數據倉庫系統TDW，同時還開發了本身的TDW-IDE基礎開發環境。騰訊的Hadoop爲騰訊各個產品線提供基礎雲計算和雲存儲服務，支撐的領域包括如下產品：
 騰訊社交廣告平臺
 搜搜SOSO
 拍拍網
 騰訊微博
 騰訊羅盤
 QQ會員
 騰訊遊戲支撐
 QQ空間
 朋友網
 騰訊開放平臺
 財付通
 手機QQ
 QQ音樂
（4）奇虎360
奇虎360主要使用Hadoop-hbase做爲其搜索引擎so.com的底層網頁存儲架構系統，360搜索的網頁可到千億記錄，數據量在PB級別。截止2012年末，其Hbase集羣規模超過300節點，region個數大於10萬個，使用的平臺版本爲：
 HBase版本：facebook 0.89-fb
 HDFS版本： facebook Hadoop-20
奇虎360在Hadoop-Hbase方面的工做主要爲了優化減小Hbase集羣的啓停時間，並優化減小RS異常退出後的恢復時間。
（5）華爲
華爲公司也是Hadoop重要貢獻公司之一，排在Google和Cisco的前面，華爲在Hadoop的HA方案，以及HBASE領域有深刻研究，並已經向業界推出了本身的基於Hadoop的大數據解決方案。
（6）中國移動
中國移動於2010年5月正式推出大雲BigCloud1.0，集羣節點達到了1024。中國移動的大雲基於Hadoop的MapReduce實現了分佈式計算，並利用了HDFS來實現分佈式存儲，並開發了基於Hadoop的數據倉庫系統HugeTable，並行數據挖掘工具集BC-PDM，以及並行數據抽取轉化BC-ETL，對象存儲系統BC-ONestd等系統，並開源了本身的BC-Hadoop版本。
中國移動主要在電信領域應用Hadoop，其規劃的應用領域包括：
 經分KPI集中運算
 經分系統ETL/DM
 結算系統
 信令系統
 雲計算資源池系統
 物聯網應用系統
 Email
 IDC服務等
（7）盤古搜索
盤古搜索主要使用Hadoop集羣做爲搜索引擎的基礎架構支撐系統，截止2013年初，集羣中機器數量總計超過380臺，存儲總量總計3.66PB，主要的應用包括：
 網頁存儲
 網頁解析
 建索引
 Pagerank計算
 日誌統計分析
 推薦引擎等
（8）即刻搜索（人民搜索）
即刻搜索也使用Hadoop做爲其搜索引擎的支撐系統，截止2013年，其Hadoop集羣規模總計超過500臺節點，配置爲雙路6核心CPU，48G內存，11*2T存儲，集羣總容量超過10PB，使用率在78%左右，天天處理讀取的數據量約爲500TB，峯值大於1P，平均約爲300TB。
即刻搜索在搜索引擎中使用sstable格式存儲網頁並直接將sstable文件存儲在HDFS上面，主要使用Hadoop pipes編程接口進行後續處理，也使用streaming接口處理數據，主要的應用包括：
 網頁存儲
 解析
 建索引
 推薦引擎