大數據技術大合集:Hadoop家族、Cloudera系列、spark、storm【轉】

  大數據咱們都知道hadoop,但是還會各類各樣的技術進入咱們的視野:Spark,Storm,impala,讓咱們都反映不過來。爲了可以更好 的架構大數據項目,這裏整理一下,供技術人員,項目經理,架構師選擇合適的技術,瞭解大數據各類技術之間的關係,選擇合適的語言。程序員

咱們能夠帶着下面問題來閱讀本文章:
1.hadoop都包含什麼技術?
2.Cloudera公司與hadoop的關係是什麼,都有什麼產品,產品有什麼特性?
3.Spark與hadoop的關聯是什麼?
4.Storm與hadoop的關聯是什麼?web

hadoop家族:

大數據技術大合集:Hadoop家族、Cloudera系列、spark、storm

創始人:Doug Cuttingsql

整個Hadoop家族由如下幾個子項目組成:shell

Hadoop Common:數據庫

Hadoop體系最底層的一個模塊,爲Hadoop各子項目提供各 種工具,如:配置文件和日誌操做等。編程

HDFS:緩存

是Hadoop應用程序中主要的分佈式儲存系統, HDFS集羣包含了一個NameNode(主節點),這個節點負責管理全部文件系統的元數據及存儲了真實數據的DataNode(數據節點,能夠有很 多)。HDFS針對海量數據所設計,因此相比傳統文件系統在大批量小文件上的優化,HDFS優化的則是對小批量大型文件的訪問和存儲。服務器

MapReduce:數據結構

是一個軟件框架,用以輕鬆編寫處理海量(TB級)數據的並行應用程序,以可靠和容錯的方式鏈接大型集羣中上萬個節點(商用硬件)。架構

Hive:

Apache Hive是Hadoop的一個數據倉庫系統,促進了數據的綜述(將結構化的數據文件映射爲一張數據庫表)、即席查詢以及存儲在Hadoop兼容系統中的大 型數據集分析。Hive提供完整的SQL查詢功能——HiveQL語言,同時當使用這個語言表達一個邏輯變得低效和繁瑣時,HiveQL還容許傳統的 Map/Reduce程序員使用本身定製的Mapper和Reducer。hive相似CloudBase,基於hadoop分佈式計算平臺上的提供 data warehouse的sql功能的一套軟件。使得存儲在hadoop裏面的海量數據 的彙總,即席查詢簡單化。

Pig:

Apache Pig是一個用於大型數據集分析的平臺,它包含了一個用於數據分析應用的高級語言以及評估這些應用的基礎設施。Pig應用的閃光特性在於它們的結構經得起 大量的並行,也就是說讓它們支撐起很是大的數據集。Pig的基礎設施層包含了產生Map-Reduce任務的編譯器。Pig的語言層當前包含了一個原生語 言——Pig Latin,開發的初衷是易於編程和保證可擴展性。

Pig是SQL-like語言,是在MapReduce上構建的一種高級查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,而且用戶能夠定義本身的功能。Yahoo網格運算部門開發的又一個克隆Google的項目Sawzall。

HBase:

Apache HBase是Hadoop數據庫,一個分佈式、可擴展的大數據存儲。它提供了大數據集上隨機和實時的讀/寫訪問,並針對了商用服務器集羣上的大型表格作出 優化——上百億行,上千萬列。其核心是Google Bigtable論文的開源實現,分佈式列式存儲。就像Bigtable利用GFS(Google File System)提供的分佈式數據存儲同樣,它是Apache Hadoop在HDFS基礎上提供的一個類Bigatable。

ZooKeeper:

Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分佈式系統的可靠協調系統,提供的功能包括:配置維護、名字服 務、 分佈式同步、組服務等。ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

Avro:

Avro是doug cutting主持的RPC項目,有點相似Google的protobuf和Facebook的thrift。avro用來作之後hadoop的RPC,使hadoop的RPC模塊通訊速度更快、數據結構更緊湊。

Sqoop:

Sqoop是一個用來將Hadoop和關係型數據庫中的數據相互轉移的工具,能夠將一個關係型數據庫中數據導入Hadoop的HDFS中,也能夠將HDFS中數據導入關係型數據庫中。

Mahout:

Apache Mahout是個可擴展的機器學習和數據挖掘庫,當前Mahout支持主要的4個用例:

  • 推薦挖掘:蒐集用戶動做並以此給用戶推薦可能喜歡的事物。
  • 彙集:收集文件並進行相關文件分組。
  • 分類:從現有的分類文檔中學習,尋找文檔中的類似特徵,併爲無標籤的文檔進行正確的歸類。
  • 頻繁項集挖掘:將一組項分組,並識別哪些個別項會常常一塊兒出現。

Cassandra:

Apache Cassandra是一個高性能、可線性擴展、高有效性數據庫,能夠運行在商用硬件或雲基礎設施上打造完美的任務關鍵性數據平臺。在橫跨數據中心的複製 中,Cassandra同類最佳,爲用戶提供更低的延時以及更可靠的災難備份。經過log-structured update、反規範化和物化視圖的強支持以及強大的內置緩存,Cassandra的數據模型提供了方便的二級索引(column indexe)。

Chukwa:

Apache Chukwa是個開源的數據收集系統,用以監視大型分佈系統。創建於HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴展性和穩定性。 Chukwa一樣包含了一個靈活和強大的工具包,用以顯示、監視和分析結果,以保證數據的使用達到最佳效果。

Ambari:

Apache Ambari是一個基於web的工具,用於配置、管理和監視Apache Hadoop集羣,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari一樣還提供了集羣狀 況儀表盤,好比heatmaps和查看MapReduce、Pig、Hive應用程序的能力,以友好的用戶界面對它們的性能特性進行診斷。

HCatalog

Apache HCatalog是Hadoop創建數據的映射表和存儲管理服務,它包括:

  • 提供一個共享模式和數據類型機制。
  • 提供一個抽象表,這樣用戶就不須要關注數據存儲的方式和地址。

爲相似Pig、MapReduce及Hive這些數據處理工具提供互操做性。

Chukwa:

Chukwa是基於Hadoop的大集羣監控系統,由yahoo貢獻。

Cloudera系列產品:

大數據技術大合集:Hadoop家族、Cloudera系列、spark、storm

創始組織:Cloudera公司

1.Cloudera Manager:

有四大功能

  • (1)管理
  • (2)監控
  • (3)診斷
  • (4)集成

2.Cloudera CDH:英文名稱:CDH (Cloudera’s Distribution, including Apache Hadoop)

Cloudera對hadoop作了相應的改變。

Cloudera公司的發行版,咱們將該版本稱爲CDH(Cloudera Distribution Hadoop)。

3.Cloudera Flume

Flume是Cloudera提供的日誌收集系統,Flume支持在日誌系統中定製各種數據發送方,用於收集數據;

Flume是Cloudera提供的一個高可用的,高可靠的,分佈式的海量日誌採集、聚合和傳輸的系統,Flume支持在日誌系統中定製各種數據發送方,用於收集數據;同時,Flume提供對數據進行簡單處理,並寫到各類數據接受方(可定製)的能力。

Flume最先是Cloudera提供的日誌收集系統,目前是Apache下的一個孵化項目,Flume支持在日誌系統中定製各種數據發送方,用於 收集數據;同時,Flume提供對數據進行簡單處理,並寫到各類數據接受方(可定製)的能力 Flume提供了從console(控制檯)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日誌系統,支持TCP和UDP等2種模式),exec(命令執行)等數據源上收集數據的能力。

Flume採用了多Master的方式。爲了保證配置數據的一致性,Flume[1]引入了ZooKeeper,用於保存配置數 據,ZooKeeper自己可保證配置數據的一致性和高可用,另外,在配置數據發生變化時,ZooKeeper能夠通知Flume Master節點。Flume Master間使用gossip協議同步數據。

4.Cloudera Impala

Cloudera Impala對你存儲在Apache Hadoop在HDFS,HBase的數據提供直接查詢互動的SQL。除了像Hive使用相同的統一存儲平臺,Impala也使用相同的元數據,SQL語 法(Hive SQL),ODBC驅動程序和用戶界面(Hue Beeswax)。Impala還提供了一個熟悉的面向批量或實時查詢和統一平臺。

5.Cloudera hue

Hue是cdh專門的一套web管理器,它包括3個部分hue ui,hue server,hue db。hue提供全部的cdh組件的shell界面的接口。你能夠在hue編寫mr,查看修改hdfs的文件,管理hive的元數據,運行Sqoop,編 寫Oozie工做流等大量工做。

Spark:

大數據技術大合集:Hadoop家族、Cloudera系列、spark、storm

創始組織:加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發

Spark 是一種與 Hadoop 類似的開源集羣計算環境,可是二者之間還存在一些不一樣之處,這些有用的不一樣之處使 Spark 在某些工做負載方面表現得更加優越,換句話說,Spark 啓用了內存分佈數據集,除了可以提供交互式查詢外,它還能夠優化迭代工做負載。

Spark 是在 Scala 語言中實現的,它將 Scala 用做其應用程序框架。與 Hadoop 不一樣,Spark 和 Scala 可以緊密集成,其中的 Scala 能夠像操做本地集合對象同樣輕鬆地操做分佈式數據集。

儘管建立 Spark 是爲了支持分佈式數據集上的迭代做業,可是實際上它是對 Hadoop 的補充,能夠在 Hadoo 文件系統中並行運行。經過名爲 Mesos 的第三方集羣框架能夠支持此行爲。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發,可用來構建大型的、低延遲的數據分析應用程序。

Storm

大數據技術大合集:Hadoop家族、Cloudera系列、spark、storm

創始人:Twitter

Twitter將Storm正式開源了,這是一個分佈式的、容錯的實時計算系統,它被託管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType開發的實時處理系統,BackType如今已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure寫的。

相關文章
相關標籤/搜索