完整hadoop生態系統的組件及其做用介紹

hadoop生態系統的組件hdfs,mapreduce,hive,pig,zookeeper,hbase你們應該都比較熟了,這裏簡單總結一下其餘不太經常使用的組件的做用。mysql

Oozie

Oozie是可擴展可伸縮的工做流協調管理器。Oozie協調的做業屬於一次性的非循環做業,例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。Oozie將要調度的做業做爲一個單一的做業來管理。Oozie的
調度基於時間跟數據可用性。具備數據感知功能,能夠協調做業之間的依賴關係.web

Flume

Flume是一個相似facebook的scribe的分佈式,高可靠,高可用,高效的數據收集器,通常用於聚合衆多服務器上面的大量日誌到某一個數據中心。sql

Sqoop

Sqoop用於將關係形數據庫(如mysql)或者其它結構化的數據導入到hadoop的生態系統中(HDFS,Hive , HBase),反過來也能夠將hadoop的數據導出爲對應的結構形式。shell

Hue

Hue是cdh專門的一套web管理器,它包括3個部分hue ui,hue server,hue db。hue提供全部的cdh組件的shell界面的接口。你能夠在hue編寫mr,查看修改hdfs的文件,管理hive的元數據,運行Sqoop,編寫Oozie工做流等大量工做。數據庫

HCatalog

HCatalog提供表格數據類型到pig,hive,mr的輸入數據的轉換,HCatalog依賴Hive的元數據存儲系統。經過HCatalog的接口pig,hive,mr自到識別這些輸入數據的架構。服務器

Avro

Avro是一個數據序列化系統。能保存持久化的數據到hdfs,能傳輸而且反序列化爲高級數據結構。相似facebook的thrift,它也是提供多語言客戶端支持的。數據結構

HttpFS

HttpFS提供REST HTTP API來讀寫hdfs。架構

Mahout

Mahout是一個編寫基於大數據的機器學習軟件,人工智能程序的協助工具。app

Snappy

Snappy是壓縮跟解壓縮工具,它的應用包括將mr的最終輸出結果壓縮起來,Sqoop導入數據的時候也能夠使用這個壓縮引擎.機器學習

Whirr

Whirr是將hadoop生態系統雲化的一個組件。只須要在Whirr的配置文件裏指明你須要的hadoop組件,它可以用一個命令將一個hadoop生態系統完整的部署到像Amazon EC2這樣的雲服務器中,也可以一個命令回收這個hadoop生態系統及其使用的資源。intel的hadoop發行版也能夠實現相似快捷部署的功能。

相關文章
相關標籤/搜索