安裝關係型數據庫MySQL 安裝大數據處理框架Hadoop

一.Hadoop 產生背景數據庫

• 1. HADOOP最先起源於Nutch。Nutch的設計目標是構建一個大型的全網搜索引編程

擎,包括網頁抓取、索引、查詢等功能,但隨着抓取網頁數量的增長,服務器

• 遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。架構

• 2. 2003年、2004年穀歌發表的兩篇論文爲該問題提供了可行的解決方案。框架

——分佈式文件系統(GFS),可用於處理海量網頁的存儲機器學習

——分佈式計算框架MAPREDUCE,可用於處理海量網頁的索引計算問題。分佈式

• 3. Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE,並從Nutch中工具

剝離成爲獨立項目HADOOP,到2008年1月,HADOOP成爲Apache頂級項目,迎來oop

了它的快速發展期。學習

3.Hadoop 與 Hadoop生態圈

二 國外Hadoop的應用現狀:

1.Yahoo

Yahoo是Hadoop的最大支持者,截至2012年,Yahoo的Hadoop機器總節點數目超過42?000個,有超過10萬的核心CPU在運行Hadoop。最大的一個單Master節點集羣有4500個節點(每一個節點雙路4核心CPUboxesw,4×1TB磁盤,16GBRAM)。總的集羣存儲容量大於350PB,每個月提交的做業數目超過1000萬個,在Pig中超過60%的Hadoop做業是使用Pig編寫提交的。

2.Facebook

Facebook使用Hadoop存儲內部日誌與多維數據,並以此做爲報告、分析和機器學習的數據源。目前Hadoop集羣的機器節點超過1400臺,共計11?200個核心CPU,超過15PB原始存儲容量,每一個商用機器節點配置了8核CPU,12TB數據存儲,主要使用StreamingAPI和JavaAPI編程接口。Facebook同時在Hadoop基礎上創建了一個名爲Hive的高級數據倉庫框架,Hive已經正式成爲基於Hadoop的Apache一級項目。此外,還開發了HDFS上的FUSE實現。

3.A9.com

A9.com爲Amazon使用Hadoop構建了商品搜索索引,主要使用StreamingAPI以及C++、Perl和Python工具,同時使用Java和StreamingAPI分析處理每日數以百萬計的會話。A9.com爲Amazon構建的索引服務運行在100節點左右的Hadoop集羣上。

4.Adobe

Adobe主要使用Hadoop及HBase,同於支撐社會服務計算,以及結構化的數據存儲和處理。大約有超過30個節點的Hadoop-HBase生產集羣。Adobe將數據直接持續地存儲在HBase中,並以HBase做爲數據源運行MapReduce做業處理,而後將其運行結果直接存到HBase或外部系統。Adobe在2008年10月就已經將Hadoop和HBase應用於生產集羣。

5.CbIR

自2008年4月以來,日本的CbIR(Content-basedInformationRetrieval)公司在AmazonEC2上使用Hadoop來構建圖像處理環境,用於圖像產品推薦系統。使用Hadoop環境生成源數據庫,便於Web應用對其快速訪問,同時使用Hadoop分析用戶行爲的類似性。

三 國內Hadoop的應用現狀:

Hadoop在國內的應用主要以互聯網公司爲主,下面主要介紹大規模使用Hadoop或研究Hadoop的公司。

 

1.百度

百度在2006年就開始關注Hadoop並開始調研和使用,在2012年其總的集羣規模達到近十個,單集羣超過2800臺機器節點,Hadoop機器總數有上萬臺機器,總的存儲容量超過100PB,已經使用的超過74PB,天天提交的做業數目有數千個之多,天天的輸入數據量已經超過7500TB,輸出超過1700TB。

百度的Hadoop集羣爲整個公司的數據團隊、大搜索團隊、社區產品團隊、廣告團隊,以及LBS團體提供統一的計算和存儲服務,主要應用包括:

  • 數據挖掘與分析。

  • 日誌分析平臺。

  • 數據倉庫系統。

  • 推薦引擎系統。

  • 用戶行爲分析系統。

同時百度在Hadoop的基礎上還開發了本身的日誌分析平臺、數據倉庫系統,以及統一的C++編程接口,並對Hadoop進行深度改造,開發了HadoopC++擴展HCE系統。

2.阿里巴巴

阿里巴巴的Hadoop集羣截至2012年大約有3200臺服務器,大約30?000物理CPU核心,總內存100TB,總的存儲容量超過60PB,天天的做業數目超過150?000個,天天hivequery查詢大於6000個,天天掃描數據量約爲7.5PB,天天掃描文件數約爲4億,存儲利用率大約爲80%,CPU利用率平均爲65%,峯值能夠達到80%。阿里巴巴的Hadoop集羣擁有150個用戶組、4500個集羣用戶,爲淘寶、天貓、一淘、聚划算、CBU、支付寶提供底層的基礎計算和存儲服務,主要應用包括:

  • 數據平臺系統。

  • 搜索支撐。

  • 廣告系統。

  • 數據魔方。

  • 量子統計。

  • 淘數據。

  • 推薦引擎系統。

  • 搜索排行榜。

3.騰訊

騰訊也是使用Hadoop最先的中國互聯網公司之一,截至2012年年末,騰訊的Hadoop集羣機器總量超過5000臺,最大單集羣約爲2000個節點,並利用Hadoop-Hive構建了本身的數據倉庫系統TDW,同時還開發了本身的TDW-IDE基礎開發環境。騰訊的Hadoop爲騰訊各個產品線提供基礎雲計算和雲存儲服務,其支持如下產品:

  • 騰訊社交廣告平臺。

  • 搜搜(SOSO)。

  • 拍拍網。

  • 騰訊微博。

  • 騰訊羅盤。

  • QQ會員。

  • 騰訊遊戲支撐。

  • QQ空間。

  • 朋友網。

  • 騰訊開放平臺。

  • 財付通。

  • 手機QQ。

  • QQ音樂。

4.奇虎360

奇虎360主要使用Hadoop-HBase做爲其搜索引擎so.com的底層網頁存儲架構系統,360搜索的網頁可到千億記錄,數據量在PB級別。截至2012年年末,其HBase集羣規模超過300節點,region個數大於10萬個,使用的平臺版本以下。

  • HBase版本:facebook0.89-fb。

  • HDFS版本:facebookHadoop-20。

四 Hadoop的安裝:

Hadoop更改二個配置文件:

Hadoop 的DateNode啓動成功:

安裝僞分佈式Hadoop後,運行例子:

執行後的結果:

相關文章
相關標籤/搜索