Hadoop各商業發行版之比較

 Hadoop的發行版除了社區的Apache hadoop外,cloudera,hortonworks,mapR,EMCIBMINTEL華爲等等都提供了本身的商業版本。商業版主要是提供了專業的技術支持,這對一些大型企業尤爲重要。每一個發行版都有本身的一些特色,本文就各發行版作簡單介紹。node

  2008 年成立的 Cloudera 是最先將 Hadoop 商用的公司,爲合做夥伴提供 Hadoop 的商用解決方案,主要是包括支持,諮詢服務,培訓。2009年hadoop的創始人 Doug Cutting也任職於 Cloudera 公司。Cloudera產品主要爲CDH,Cloudera Manager,Cloudera Support。CDH是Cloudera的hadoop發行版,徹底開源,比Apache hadoop在兼容性,安全性,穩定性上有加強。Cloudera Manager是集羣的軟件分發及管理監控平臺,能夠在幾個小時內部署好一個hadoop集羣,並對集羣的節點及服務進行實時監控。Cloudera Support便是對hadoop的技術支持。cloudera的標價爲每一年每一個節點4000美圓。算法

  2011年成立的Hortonworks是雅虎與硅谷風投公司Benchmark Capital合資組建的公司。公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師,上述工程師均在2005年開始協助雅虎開發Hadoop,這些工程師貢獻了hadoop 80%的代碼。。雅虎工程副總裁、雅虎Hadoop開發團隊負責人Eric Baldeschwieler出任Hortonworks的首席執行官。Hortonworks 的主打產品是Hortonworks Data Platform (HDP),也一樣是100%開源的產品,HDP除了常見的項目外還包含了Ambari,一款開源的安裝和管理系統。HCatalog,一個元數據管理系統。數據庫

博客精選:Hadoop各商業發行版之比較

  HDP的Datasheet中描述的版本特色是編程

  集成和測試封裝 – HDP包括穩定版本的Apache Hadoop的全部關鍵組件,集成和測試封裝api

  安裝方便– HDP包括一個現代化的,直觀的用戶界面的安裝和配置工具。瀏覽器

  管理和監控服務 – HDP包括直觀的儀表板,爲監測集羣和創建警示。安全

  數據集成服務 – HDP包括Talend大數據平臺,領先的開源整合工具,輕鬆鏈接Hadoop集羣,而無需編寫Hadoop代碼的數據系統集成工具。性能優化

  元數據服務 – HDP包括的Apache HCatalog,從而簡化了Hadoop的應用程序之間和Hadoop和其餘數據系統之間的數據共享。網絡

  高可用性– HDP與成熟的高可用性解決方案的無縫集成。架構

  訂價以集羣爲基礎,每10個節點每一年爲12500美圓。

  cloudera和hortonworks均是在不斷的提交代碼完善Apache hadoop,而2009年成立的MapR公司在Hadoop領域顯得有點特立獨行,它提供了一款獨特的發行版 。Hadoop在性能(在當前Hadoop的設計中,全部的meta data操做都要經過集中式的Namenode來進行,Namenode有多是性能的瓶頸;M/R 應用程序須要經過DataNode來訪問HDFS, 這就涉及到格外的進程切換和網絡傳輸開銷),可靠性與擴展性(namenode,jobtracker單點問題),企業級應用上的弱點(好比徹底可讀寫的文件系統,snapshot,mirror等等)各大廠商均知,MapR則認爲,Hadoop的這些缺陷來自於其架構設計自己,小修小補不能解決問題。他們選擇了一條艱可貴多的路: 用新架構重寫HDFS,同時在API級別,和目前的Hadoop 發行版保持兼容。這家2009年成立的創業公司,在蟄伏了兩年以後,終於一舉成名,大放異彩。他們成功的「構建一個HDFS的私有替代品,這個替代品比當前的開源版本快三倍,自帶快照功能,並且支持無Namenode單點故障(SPOF),而且在API上和兼容,因此能夠考慮將其做爲替代方案。」 mapR版本再也不須要單獨的namenode機器,元數據分散在集羣中,也相似數據默認存儲三份。也再也不須要用NAS來協助namenode作元數據備份,提供了機器使用率。還有個重要的特色的可使用nfs直接訪問hdfs,提供了與舊有應用的兼容性。鏡像功能也很適合作數據備份,並且支持跨數據中心的鏡像,快照功能對於數據的恢復做用明顯。據報道mapR標價也爲每一年每一個節點4000美圓。

博客精選:Hadoop各商業發行版之比較

博客精選:Hadoop各商業發行版之比較

  mapR有免費和商業兩個版本,免費版本在功能上有所縮減。

博客精選:Hadoop各商業發行版之比較

  EMC的Greenplum HD是基於mapR版本二次開發改造而成,特色同mapR。

  IBM在去年5月推出了InfoSphere BigInsights軟件。該軟件包括Apache Hadoop發行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數據庫的鏈接件以及IBM BigSheets,後者是一種基於瀏覽器的、使用電子表格隱喻(spreadsheet-metaphor)的界面,用於探究和分析Hadoop裏面的數據。IBM在平臺管理,安全認證,做業調度算法,與DB2及netezza的集成上作了加強。從IBM中國開發中心信息管理總經理朱輝下面這句話就能夠看出IBM對於biginsights的定位:BigInsights並無替代OLAP(Online Analytical Processing)或OLTP(Online Transaction Processing)應用程序,但它能夠整合其中,用於「過濾大量原始數據併合並結果,將結果以結構化數據的形式保存在DBMS或數據倉庫中」。

博客精選:Hadoop各商業發行版之比較

  傳統的硬件廠商,華爲,Intel也提供hadoop的版本

  Intel 的商業版本,主要是強調其能提供全面的軟硬件解決方案設計,針對硬件具備更好的性能優化,以及提供集羣管理工具和安裝工具簡化了 Hadoop 的安裝和配置,可以提供項目規劃到實施各階段專業的諮詢服務,實際中採購Intel版本貌似動力不足。

  華爲在硬件上具備自然的優點,在網絡,虛擬化,PC機等都有很強的硬件實力。華爲的hadoop版本基於自研的Hadoop HA平臺,構建NameNode、JobTracker、HiveServer的HA功能,進程故障後系統自動Failover,無需人工干預,這個也是對hadoop的小修補,遠不如mapR解決的完全。華爲在hadoop社區中的Contributor和committer也是國內最多的,算是國內技術實力較強的公司。

相關文章
相關標籤/搜索