Hadoop1-認識Hadoop大數據處理架構

1、簡介概述

  一、什麼是Hadoop

    Hadoop是Apache軟件基金會旗下的一個開源分佈式計算平臺,爲用戶提供了系統底層細節透明的分佈式基礎架構html

    Hadoop是基於java語言開發,具備很好的跨平臺的特性,而且能夠部署在廉價的計算機集羣中java

    Hadoop的核心是分佈式文件系統HDFS(Hadoop Distribute File System)和MapReduce,安裝完Hadoop默認就已經安裝了HDFS和Mapreducelinux

    Hadoop被公認爲行業大數據標準開源軟件,在分佈式環境下提供了海量數據的處理能力apache

    幾乎全部主流廠商都圍繞Hadoop提供開發工具,開源軟件、商業化工具和技術服務,如谷歌、雅虎、微軟、思科、淘寶等都支持Hadoop編程

    官方網址:http://hadoop.apache.org/架構

  二、Hadoop圖標

  

 

  二、Hadoop的特性

    Hadoop是一個可以對大量數據進行分佈式處理的軟件框架,而且是以一種可靠、高效、可伸縮的方式進行處理的,它具備如下幾個方面的特性:框架

    高可靠性編程語言

    高效性分佈式

    高擴展性工具

    高容錯性

    低成本

    運行在linux平臺上

    支持多種編程語言

  三、應用普遍

    互聯網居多,雅虎、facebook(用於平臺處理、推薦系統和數據倉庫等)、百度、淘寶、網易、華爲、中國移動等,其中,淘寶的Hadoop集羣比較大

  四、企業應用架構

 

  五、版本

    1)版本演變

      Apache Hadoop版本分爲兩代,咱們將第一代Hadoop稱爲Hadoop1.0,第二代Hadoop稱爲Hadoop 2.0
      第一代Hadoop包含三個大版本,分別是0.20.x,0.21.x和0.22.x,其中,0.20.x最後演化成1.0.x,變成了穩定版,而0.21.x和0.22.x則增長了NameNode HA等新的重大特性
      第二代Hadoop包含兩個版本,分別是0.23.x和2.x,它們徹底不一樣於Hadoop 1.0,是一套全新的架構,均包含HDFS Federation和YARN兩個系統,相比於0.23.x,2.x增長了NameNode HA和Wire-compatibility兩個重大特性
      當前最新版本已經有3.X版本

    2)圖示

    3)各種版本

         Apache Hadoop

      Hortonworks

      Cloudera(CDH:Cloudera Distribution Hadoop)

      MapR

  六、各個版本區別

2、Hadoop項目結構

    在不斷豐富發展,現已成爲一個豐富的Hadoop生態系統

  一、結構圖

  二、模塊及相關項目

 

 

 

 

 

安裝部署請見:Hadoop2-認識Hadoop大數據處理架構-單機部署

HDFS原理:Hadoop4-HDFS分佈式文件系統原理

參考:http://hadoop.apache.org/

參考:http://dblab.xmu.edu.cn/post/1089/

參考:https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Active+Release+Lines

轉載請註明出處:http://www.javashuo.com/article/p-rbgbvqjw-cz.html

相關文章
相關標籤/搜索