1、什麼是hadoop?node
Hadoop軟件庫是一個開源框架,容許使用簡單的編程模型跨計算機集羣分佈式處理大型數據集。它旨在從單個服務器擴展到數千臺計算機,每臺計算機都提供本地計算和存儲。庫自己不是依靠硬件來提供高可用性,而是設計用於檢測和處理應用程序層的故障,從而在計算機集羣之上提供高可用性服務,每一個計算機均可能容易出現故障。是大數據技術的基礎。數據庫
hadoop所包含的模塊(從官網借鑑的):編程
♥ hadoop分佈式文件系統(HDFS):一種分佈式文件系統,可以提供高可靠、高可用、可擴展以及對應用程序數據的高吞吐量訪問。服務器
♥ yarn :做業調度和資源管理的框架。架構
♥ MapReduce :基於yarn框架,用於並行計算處理大型數據集,是一種計算框架。框架
♥ ambari :基於Web的工具,用於配置,管理和監控Apache Hadoop集羣,包括對Hadoop HDFS,Hadoop MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop的支持。Ambari還提供了一個用於查看羣集運行情況的儀表板,例如熱圖,以及可視化查看MapReduce,Pig和Hive應用程序的功能,以及以用戶友好的方式診斷其性能特徵的功能。機器學習
♥ avro :數據序列化系統。分佈式
♥ cassandra:可擴展的多主數據庫,沒有單點故障。工具
♥ hbase:可擴展的分佈式數據庫,支持大型表的結構化數據存儲。oop
♥ hive:一種數據倉庫基礎架構,提供數據彙總和即席查詢。
♥ pig:用於並行計算的高級數據流語言和執行框架。
♥ spark:用於Hadoop數據的快速通用計算引擎。Spark提供了一種簡單而富有表現力的編程模型,支持普遍的應用程序,包括ETL,機器學習,流處理和圖形計算。
♥ zookeeper:用於分佈式應用程序的高性能協調服務。
2、hadoop的四種模式。
一、本地模式:
本地模式就是解壓源碼包,不須要作任何的配置。一般用於開發調試,或者感覺hadoop。
二、僞分佈模式:
在學習當中通常都是使用這種模式,僞分佈模式就是在一臺機器的多個進程運行多個模塊。雖然每個模塊都有相應的進程,可是卻仍是運行在同一個系統裏面。因此叫僞分佈式。
三、徹底分佈式:
這種模式纔是工做當中所用的模式,hadoop運行在多臺機器上面,咱們稱之爲hadoop集羣。
四、HA:
在實際的工做當中,對於hadoop徹底分佈式來講,並不真正的可靠,由於hadoop徹底分佈式集羣會有單點故障(namenode單點故障、yarn單點故障),因此通常都會對這個集羣作HA,通常都是作namenode和yarn的高可用。
下一章會對這幾種模式的安裝做介紹。
*** 本博客只是用來對本身所學知識的記錄和總結,同時也但願可以幫助他人,可能寫的並很差,還請見諒。***