hadoop(1)---hadoop的介紹和幾種模式。

時間 2019-11-16

原文原文鏈接

1、什麼是hadoop？node

Hadoop軟件庫是一個開源框架，容許使用簡單的編程模型跨計算機集羣分佈式處理大型數據集。它旨在從單個服務器擴展到數千臺計算機，每臺計算機都提供本地計算和存儲。庫自己不是依靠硬件來提供高可用性，而是設計用於檢測和處理應用程序層的故障，從而在計算機集羣之上提供高可用性服務，每一個計算機均可能容易出現故障。是大數據技術的基礎。數據庫

hadoop所包含的模塊（從官網借鑑的）：編程

♥ hadoop分佈式文件系統（HDFS）：一種分佈式文件系統，可以提供高可靠、高可用、可擴展以及對應用程序數據的高吞吐量訪問。服務器

♥ yarn ：做業調度和資源管理的框架。架構

♥ MapReduce ：基於yarn框架，用於並行計算處理大型數據集，是一種計算框架。框架

♥ ambari ：基於Web的工具，用於配置，管理和監控Apache Hadoop集羣，包括對Hadoop HDFS，Hadoop MapReduce，Hive，HCatalog，HBase，ZooKeeper，Oozie，Pig和Sqoop的支持。Ambari還提供了一個用於查看羣集運行情況的儀表板，例如熱圖，以及可視化查看MapReduce，Pig和Hive應用程序的功能，以及以用戶友好的方式診斷其性能特徵的功能。機器學習

♥ avro ：數據序列化系統。分佈式

♥ cassandra：可擴展的多主數據庫，沒有單點故障。工具

♥ hbase：可擴展的分佈式數據庫，支持大型表的結構化數據存儲。oop

♥ hive：一種數據倉庫基礎架構，提供數據彙總和即席查詢。

♥ pig：用於並行計算的高級數據流語言和執行框架。

♥ spark：用於Hadoop數據的快速通用計算引擎。Spark提供了一種簡單而富有表現力的編程模型，支持普遍的應用程序，包括ETL，機器學習，流處理和圖形計算。

♥ zookeeper：用於分佈式應用程序的高性能協調服務。

2、hadoop的四種模式。

一、本地模式：

本地模式就是解壓源碼包，不須要作任何的配置。一般用於開發調試，或者感覺hadoop。

二、僞分佈模式：

在學習當中通常都是使用這種模式，僞分佈模式就是在一臺機器的多個進程運行多個模塊。雖然每個模塊都有相應的進程，可是卻仍是運行在同一個系統裏面。因此叫僞分佈式。