安裝關係型數據庫MySQL 安裝大數據處理框架Hadoop

時間 2020-06-24

標籤安裝關係數據庫 mysql 數據處理框架 hadoop 欄目 SQL 简体版

原文原文鏈接

一.Hadoop 產生背景數據庫

• 1. HADOOP最先起源於Nutch。Nutch的設計目標是構建一個大型的全網搜索引編程

擎，包括網頁抓取、索引、查詢等功能，但隨着抓取網頁數量的增長，服務器

• 遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。架構

• 2. 2003年、2004年穀歌發表的兩篇論文爲該問題提供了可行的解決方案。框架

——分佈式文件系統（GFS），可用於處理海量網頁的存儲機器學習

——分佈式計算框架MAPREDUCE，可用於處理海量網頁的索引計算問題。分佈式

• 3. Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE，並從Nutch中工具

剝離成爲獨立項目HADOOP，到2008年1月，HADOOP成爲Apache頂級項目，迎來oop

了它的快速發展期。學習

3.Hadoop 與 Hadoop生態圈

二國外Hadoop的應用現狀：

1.Yahoo

Yahoo是Hadoop的最大支持者，截至2012年，Yahoo的Hadoop機器總節點數目超過42?000個，有超過10萬的核心CPU在運行Hadoop。最大的一個單Master節點集羣有4500個節點（每一個節點雙路4核心CPUboxesw，4×1TB磁盤，16GBRAM）。總的集羣存儲容量大於350PB，每個月提交的做業數目超過1000萬個，在Pig中超過60%的Hadoop做業是使用Pig編寫提交的。

2.Facebook

Facebook使用Hadoop存儲內部日誌與多維數據，並以此做爲報告、分析和機器學習的數據源。目前Hadoop集羣的機器節點超過1400臺，共計11?200個核心CPU，超過15PB原始存儲容量，每一個商用機器節點配置了8核CPU，12TB數據存儲，主要使用StreamingAPI和JavaAPI編程接口。Facebook同時在Hadoop基礎上創建了一個名爲Hive的高級數據倉庫框架，Hive已經正式成爲基於Hadoop的Apache一級項目。此外，還開發了HDFS上的FUSE實現。

3.A9.com

A9.com爲Amazon使用Hadoop構建了商品搜索索引，主要使用StreamingAPI以及C++、Perl和Python工具，同時使用Java和StreamingAPI分析處理每日數以百萬計的會話。A9.com爲Amazon構建的索引服務運行在100節點左右的Hadoop集羣上。

4.Adobe

Adobe主要使用Hadoop及HBase，同於支撐社會服務計算，以及結構化的數據存儲和處理。大約有超過30個節點的Hadoop-HBase生產集羣。Adobe將數據直接持續地存儲在HBase中，並以HBase做爲數據源運行MapReduce做業處理，而後將其運行結果直接存到HBase或外部系統。Adobe在2008年10月就已經將Hadoop和HBase應用於生產集羣。

5.CbIR

自2008年4月以來，日本的CbIR（Content-basedInformationRetrieval）公司在AmazonEC2上使用Hadoop來構建圖像處理環境，用於圖像產品推薦系統。使用Hadoop環境生成源數據庫，便於Web應用對其快速訪問，同時使用Hadoop分析用戶行爲的類似性。

三國內Hadoop的應用現狀：

Hadoop在國內的應用主要以互聯網公司爲主，下面主要介紹大規模使用Hadoop或研究Hadoop的公司。

1.百度

百度在2006年就開始關注Hadoop並開始調研和使用，在2012年其總的集羣規模達到近十個，單集羣超過2800臺機器節點，Hadoop機器總數有上萬臺機器，總的存儲容量超過100PB，已經使用的超過74PB，天天提交的做業數目有數千個之多，天天的輸入數據量已經超過7500TB，輸出超過1700TB。

百度的Hadoop集羣爲整個公司的數據團隊、大搜索團隊、社區產品團隊、廣告團隊，以及LBS團體提供統一的計算和存儲服務，主要應用包括：

數據挖掘與分析。
日誌分析平臺。
數據倉庫系統。
推薦引擎系統。
用戶行爲分析系統。

同時百度在Hadoop的基礎上還開發了本身的日誌分析平臺、數據倉庫系統，以及統一的C++編程接口，並對Hadoop進行深度改造，開發了HadoopC++擴展HCE系統。

2.阿里巴巴

阿里巴巴的Hadoop集羣截至2012年大約有3200臺服務器，大約30?000物理CPU核心，總內存100TB，總的存儲容量超過60PB，天天的做業數目超過150?000個，天天hivequery查詢大於6000個，天天掃描數據量約爲7.5PB，天天掃描文件數約爲4億，存儲利用率大約爲80%，CPU利用率平均爲65%，峯值能夠達到80%。阿里巴巴的Hadoop集羣擁有150個用戶組、4500個集羣用戶，爲淘寶、天貓、一淘、聚划算、CBU、支付寶提供底層的基礎計算和存儲服務，主要應用包括：

數據平臺系統。
搜索支撐。
廣告系統。
數據魔方。
量子統計。
淘數據。
推薦引擎系統。
搜索排行榜。

3.騰訊

騰訊也是使用Hadoop最先的中國互聯網公司之一，截至2012年年末，騰訊的Hadoop集羣機器總量超過5000臺，最大單集羣約爲2000個節點，並利用Hadoop-Hive構建了本身的數據倉庫系統TDW，同時還開發了本身的TDW-IDE基礎開發環境。騰訊的Hadoop爲騰訊各個產品線提供基礎雲計算和雲存儲服務，其支持如下產品：