Hadoop學習(1)-- 入門介紹

  Hadoop是Apache基金會開發的一個分佈式系統基礎架構,是時下最流行的分佈式系統架構之一。用戶能夠在不瞭解分佈式底層的狀況下,在Hadoop上快速進行分佈式應用的開發,並利用集羣的計算和存儲能力,完成海量數據的處理。node

1、Hadoop特色

一、擴容能力(Scalable):能可靠地存儲和處理千兆(PB)字節數據。web

二、成本低(Economical):能夠經過普通機器組成的服務器羣來分發以及處理數據,羣集規模可達數千節點。算法

三、高效率(Efficient):經過分發數據,hadoop能夠在數據所在的節點上並行地處理他們,這使得處理很是快速。數據庫

四、可靠性(Reliable):hadoop能自動地維護數據的多分副本,而且在任務失敗後能自動地從新部署計算任務。windows

2、Hadoop主要產品

一、Hadoop:分佈式系統基礎架構服務器

二、HDFS(Hadoop Distributed File System):分佈式文件系統網絡

三、MapReduce:並行計算框架架構

圖2-1 Hadoop單節點物理結構框架

3、hadoop集羣的物理分佈

  hadoop集羣中namenode和jobtracker只有一個節點,datanode和tasktracker存在多個節點,其物理分佈結構如圖3-1所示。機器學習

圖3-1 hadoop集羣物理分佈

4、Hadoop家族產品

一、Hadoop: 是Apache開源組織的一個分佈式計算開源框架,提供了一個分佈式文件系統子項目(HDFS)和支持MapReduce分佈式計算的軟件架構。

二、Hive: 是基於Hadoop的一個數據倉庫工具,能夠將結構化的數據文件映射爲一張數據庫表,經過類SQL語句快速實現簡單的MapReduce統計,沒必要開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

三、Pig: 是一個基於Hadoop的大規模數據分析工具,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數據分析請求轉換爲一系列通過優化處理的MapReduce運算。

四、HBase: 是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。

五、Sqoop: 是一個用來將Hadoop和關係型數據庫中的數據相互轉移的工具,能夠將一個關係型數據庫(MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也能夠將HDFS的數據導進到關係型數據庫中。

六、Zookeeper: 是一個爲分佈式應用所設計的分佈的、開源的協調服務,它主要是用來解決分佈式應用中常常遇到的一些數據管理問題,簡化分佈式應用協調及其管理的難度,提供高性能的分佈式服務。

七、Mahout:是基於Hadoop的機器學習和數據挖掘的一個分佈式框架。Mahout用MapReduce實現了部分數據挖掘算法,解決了並行挖掘的問題。

八、Cassandra:是一套開源分佈式NoSQL數據庫系統。它最初由Facebook開發,用於儲存簡單格式數據,集Google BigTable的數據模型與Amazon Dynamo的徹底分佈式的架構於一身。

九、Avro: 是一個數據序列化系統,設計用於支持數據密集型,大批量數據交換的應用。Avro是新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。

十、Ambari: 是一種基於Web的工具,支持Hadoop集羣的供應、管理和監控。

十一、Chukwa: 是一個開源的用於監控大型分佈式系統的數據收集系統,它能夠將各類各樣類型的數據收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進行各類 MapReduce 操做。

十二、Hama: 是一個基於HDFS的BSP(Bulk Synchronous Parallel)並行計算框架, Hama可用於包括圖、矩陣和網絡算法在內的大規模、大數據計算。

1三、Flume: 是一個分佈的、可靠的、高可用的海量日誌聚合的系統,可用於日誌數據收集,日誌數據處理,日誌數據傳輸。

1四、Giraph: 是一個可伸縮的分佈式迭代圖處理系統, 基於Hadoop平臺,靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

1五、Oozie: 是一個工做流引擎服務器, 用於管理和協調運行在Hadoop平臺上(HDFS、Pig和MapReduce)的任務。

1六、Crunch: 是基於Google的FlumeJava庫編寫的Java庫,用於建立MapReduce程序。與Hive,Pig相似,Crunch提供了用於實現如鏈接數據、執行聚合和排序記錄等常見任務的模式庫。

1七、Whirr: 是一套運行於雲服務的類庫(包括Hadoop),可提供高度的互補性。Whirr學支持Amazon EC2和Rackspace的服務。

1八、Bigtop: 是一個對Hadoop及其周邊生態進行打包,分發和測試的工具。

1九、HCatalog: 是基於Hadoop的數據表和存儲管理,實現中央的元數據和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供關係視圖。

20、Hue: 是一個基於WEB的監控和管理系統,實現對HDFS,MapReduce/YARN, HBase, Hive, Pig的web化操做和管理。

圖4-1 hadoop家族產品

5、經常使用工具介紹

一、PieTTY:經過SSH協議鏈接Linux。  http://pan.baidu.com/s/1hqHxBxU

二、WinSCP:windows與遠程機器文件傳輸。  http://pan.baidu.com/s/1c0oz2W4

相關文章
相關標籤/搜索