Hadoop學習（1）-- 入門介紹

時間 2019-11-11

標籤 hadoop 學習入門介紹欄目 Hadoop 简体版

原文原文鏈接

　　Hadoop是Apache基金會開發的一個分佈式系統基礎架構，是時下最流行的分佈式系統架構之一。用戶能夠在不瞭解分佈式底層的狀況下，在Hadoop上快速進行分佈式應用的開發，並利用集羣的計算和存儲能力，完成海量數據的處理。node

1、Hadoop特色

一、擴容能力(Scalable)：能可靠地存儲和處理千兆(PB)字節數據。web

二、成本低(Economical)：能夠經過普通機器組成的服務器羣來分發以及處理數據，羣集規模可達數千節點。算法

三、高效率(Efficient)：經過分發數據，hadoop能夠在數據所在的節點上並行地處理他們，這使得處理很是快速。數據庫

四、可靠性(Reliable)：hadoop能自動地維護數據的多分副本，而且在任務失敗後能自動地從新部署計算任務。windows

2、Hadoop主要產品

一、Hadoop：分佈式系統基礎架構服務器

二、HDFS(Hadoop Distributed File System)：分佈式文件系統網絡

三、MapReduce：並行計算框架架構

圖2-1 Hadoop單節點物理結構框架

3、hadoop集羣的物理分佈

　　hadoop集羣中namenode和jobtracker只有一個節點，datanode和tasktracker存在多個節點，其物理分佈結構如圖3-1所示。機器學習

圖3-1 hadoop集羣物理分佈

4、Hadoop家族產品

一、Hadoop：是Apache開源組織的一個分佈式計算開源框架，提供了一個分佈式文件系統子項目(HDFS)和支持MapReduce分佈式計算的軟件架構。

二、Hive：是基於Hadoop的一個數據倉庫工具，能夠將結構化的數據文件映射爲一張數據庫表，經過類SQL語句快速實現簡單的MapReduce統計，沒必要開發專門的MapReduce應用，十分適合數據倉庫的統計分析。

三、Pig：是一個基於Hadoop的大規模數據分析工具，它提供的SQL-LIKE語言叫Pig Latin，該語言的編譯器會把類SQL的數據分析請求轉換爲一系列通過優化處理的MapReduce運算。

四、HBase：是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。

五、Sqoop：是一個用來將Hadoop和關係型數據庫中的數據相互轉移的工具，能夠將一個關係型數據庫（MySQL ,Oracle ,Postgres等）中的數據導進到Hadoop的HDFS中，也能夠將HDFS的數據導進到關係型數據庫中。

六、Zookeeper：是一個爲分佈式應用所設計的分佈的、開源的協調服務，它主要是用來解決分佈式應用中常常遇到的一些數據管理問題，簡化分佈式應用協調及其管理的難度，提供高性能的分佈式服務。

七、Mahout：是基於Hadoop的機器學習和數據挖掘的一個分佈式框架。Mahout用MapReduce實現了部分數據挖掘算法，解決了並行挖掘的問題。

八、Cassandra：是一套開源分佈式NoSQL數據庫系統。它最初由Facebook開發，用於儲存簡單格式數據，集Google BigTable的數據模型與Amazon Dynamo的徹底分佈式的架構於一身。

九、Avro：是一個數據序列化系統，設計用於支持數據密集型，大批量數據交換的應用。Avro是新的數據序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機制。

十、Ambari：是一種基於Web的工具，支持Hadoop集羣的供應、管理和監控。

十一、Chukwa：是一個開源的用於監控大型分佈式系統的數據收集系統，它能夠將各類各樣類型的數據收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進行各類 MapReduce 操做。

十二、Hama：是一個基於HDFS的BSP（Bulk Synchronous Parallel)並行計算框架, Hama可用於包括圖、矩陣和網絡算法在內的大規模、大數據計算。

1三、Flume：是一個分佈的、可靠的、高可用的海量日誌聚合的系統，可用於日誌數據收集，日誌數據處理，日誌數據傳輸。

1四、Giraph：是一個可伸縮的分佈式迭代圖處理系統，基於Hadoop平臺，靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

1五、Oozie：是一個工做流引擎服務器, 用於管理和協調運行在Hadoop平臺上（HDFS、Pig和MapReduce）的任務。

1六、Crunch：是基於Google的FlumeJava庫編寫的Java庫，用於建立MapReduce程序。與Hive，Pig相似，Crunch提供了用於實現如鏈接數據、執行聚合和排序記錄等常見任務的模式庫。

1七、Whirr：是一套運行於雲服務的類庫（包括Hadoop），可提供高度的互補性。Whirr學支持Amazon EC2和Rackspace的服務。

1八、Bigtop：是一個對Hadoop及其周邊生態進行打包，分發和測試的工具。

1九、HCatalog：是基於Hadoop的數據表和存儲管理，實現中央的元數據和模式管理，跨越Hadoop和RDBMS，利用Pig和Hive提供關係視圖。

20、Hue：是一個基於WEB的監控和管理系統，實現對HDFS，MapReduce/YARN, HBase, Hive, Pig的web化操做和管理。

圖4-1 hadoop家族產品

5、經常使用工具介紹

一、PieTTY：經過SSH協議鏈接Linux。　　http://pan.baidu.com/s/1hqHxBxU

二、WinSCP：windows與遠程機器文件傳輸。　　http://pan.baidu.com/s/1c0oz2W4

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。