Hadoop基礎（二）：從Hadoop框架討論大數據生態

時間 2020-07-12

標籤 hadoop 基礎框架討論數據生態欄目 Hadoop 简体版

原文原文鏈接

1 Hadoop是什麼

2 Hadoop三大發行版本

Hadoop三大發行版本：Apache、Cloudera、Hortonworks。html

Apache版本最原始（最基礎）的版本，對於入門學習最好。面試

Cloudera在大型互聯網企業中用的較多。數據庫

Hortonworks文檔較好。apache

Apache Hadoop

官網地址：http://hadoop.apache.org/releases.htmlapi

下載地址：https://archive.apache.org/dist/hadoop/common/安全

Cloudera Hadoop

官網地址：https://www.cloudera.com/downloads/cdh/5-10-0.html服務器

下載地址：http://archive-primary.cloudera.com/cdh5/cdh/5/數據結構

（1）2008年成立的Cloudera是最先將Hadoop商用的公司，爲合做夥伴提供Hadoop的商用解決方案，主要是包括支持、諮詢服務、培訓。架構

（2）2009年Hadoop的創始人Doug Cutting也加盟Cloudera公司。Cloudera產品主要爲CDH，Cloudera Manager，Cloudera Support框架

（3）CDH是Cloudera的Hadoop發行版，徹底開源，比Apache Hadoop在兼容性，安全性，穩定性上有所加強。

（4）Cloudera Manager是集羣的軟件分發及管理監控平臺，能夠在幾個小時內部署好一個Hadoop集羣，並對集羣的節點及服務進行實時監控。Cloudera Support便是對Hadoop的技術支持。

（5）Cloudera的標價爲每一年每一個節點4000美圓。Cloudera開發並貢獻了可實時處理大數據的Impala項目。

3. Hortonworks Hadoop

官網地址：https://hortonworks.com/products/data-center/hdp/

下載地址：https://hortonworks.com/downloads/#data-platform

（1）2011年成立的Hortonworks是雅虎與硅谷風投公司Benchmark Capital合資組建。

（2）公司成立之初就吸納了大約25名至30名專門研究Hadoop的雅虎工程師，上述工程師均在2005年開始協助雅虎開發Hadoop，貢獻了Hadoop80%的代碼。

（3）雅虎工程副總裁、雅虎Hadoop開發團隊負責人Eric Baldeschwieler出任Hortonworks的首席執行官。

（4）Hortonworks的主打產品是Hortonworks Data Platform（HDP），也一樣是100%開源的產品，HDP除常見的項目外還包括了Ambari，一款開源的安裝和管理系統。

（5）HCatalog，一個元數據管理系統，HCatalog現已集成到Facebook開源的Hive中。Hortonworks的Stinger開創性的極大的優化了Hive項目。Hortonworks爲入門提供了一個很是好的，易於使用的沙盒。

（6）Hortonworks開發了不少加強特性並提交至核心主幹，這使得Apache Hadoop可以在包括Window Server和Windows Azure在內的Microsoft Windows平臺上本地運行。訂價以集羣爲基礎，每10個節點每一年爲12500美圓。

3Hadoop的優點（4高）

4 Hadoop組成（面試重點）

Hadoop1.x與Hadoop2.x的區別

4.1 HDFS架構概述

HDFS（Hadoop Distributed File System）的架構概述，如圖2-23所示。

圖2-23 HDFS架構概述

4.2 YARN架構概述

YARN架構概述，如圖2-24所示。

圖2-24 YARN架構概述

4.3 MapReduce架構概述

MapReduce將計算過程分爲兩個階段：Map和Reduce，如圖2-25所示

1）Map階段並行處理輸入數據

2）Reduce階段對Map結果進行彙總

5 大數據技術生態體系

圖中涉及的技術名詞解釋以下：

1）Sqoop：Sqoop是一款開源的工具，主要用於在Hadoop、Hive與傳統的數據庫(MySql)間進行數據的傳遞，能夠將一個關係型數據庫（例如：MySQL，Oracle 等）中的數據導進到Hadoop的HDFS中，也能夠將HDFS的數據導進到關係型數據庫中。

2）Flume：Flume是Cloudera提供的一個高可用的，高可靠的，分佈式的海量日誌採集、聚合和傳輸的系統，Flume支持在日誌系統中定製各種數據發送方，用於收集數據；同時，Flume提供對數據進行簡單處理，並寫到各類數據接受方（可定製）的能力。

3）Kafka：Kafka是一種高吞吐量的分佈式發佈訂閱消息系統，有以下特性：

（1）經過O(1)的磁盤數據結構提供消息的持久化，這種結構對於即便數以TB的消息存儲也可以保持長時間的穩定性能。

（2）高吞吐量：即便是很是普通的硬件Kafka也能夠支持每秒數百萬的消息。

（3）支持經過Kafka服務器和消費機集羣來分區消息。

（4）支持Hadoop並行數據加載。

4）Storm：Storm用於「連續計算」，對數據流作連續查詢，在計算時就將結果以流的形式輸出給用戶。

5）Spark：Spark是當前最流行的開源大數據內存計算框架。能夠基於Hadoop上存儲的大數據進行計算。

6）Oozie：Oozie是一個管理Hdoop做業（job）的工做流程調度管理系統。

7）Hbase：HBase是一個分佈式的、面向列的開源數據庫。HBase不一樣於通常的關係數據庫，它是一個適合於非結構化數據存儲的數據庫。

8）Hive：Hive是基於Hadoop的一個數據倉庫工具，能夠將結構化的數據文件映射爲一張數據庫表，並提供簡單的SQL查詢功能，能夠將SQL語句轉換爲MapReduce任務進行運行。其優勢是學習成本低，能夠經過類SQL語句快速實現簡單的MapReduce統計，沒必要開發專門的MapReduce應用，十分適合數據倉庫的統計分析。