目前啊,都知道,大數據集羣管理方式分爲手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)。html
手工部署呢,需配置太多參數,可是,好理解其原理,建議初學這樣作,能學到不少。該方式啊,均得由用戶執行,細節太多,切當設計多個組件時,用戶須本身解決組件間版本兼容問題。apache
工具部署呢,好比Ambari或Cloudera Manger。(當前兩大最主流的集羣管理工具,前者是Hortonworks公司,後者是Cloudera公司)使用工具來,能夠說是一鍵操做,難點都在工具Ambari或Cloudera Manger自己部署上。安全
手工方式 工具方式網絡
難易度 難,幾乎不可能成功 簡單,易行架構
兼容性 本身解決組件兼容性問題 自動安裝兼容組件框架
組件支持數 支持所有組件 支持經常使用組件運維
優勢 對組件和集羣管理深入 簡單、容易、可行分佈式
缺點 太複雜,不可能成功 屏蔽太多細節,妨礙對組件理解工具
工具名 所屬機構 開源性 社區支持性 易用性、穩定性 市場佔有率oop
Cloudera Manger Cloudera 商用 不支持 易用、穩定 高
Ambari Hortonwork 開源 支持 較易用、較穩定 較高
常見的狀況是,Cloudera Manger 去部署CDH
Ambari去部署HDP,
固然,二者也能夠互相,也能夠去部署Apache Hadoop
Cloudera Manager安裝之利用parcels方式安裝3節點集羣(包含最新穩定版本或指定版本的安裝)(添加服務)
Hadoop在大數據領域的應用前景很大,不過由於是開源技術,實際應用過程當中存在不少問題。因而出現了各類Hadoop發行版,國外目前主要是三家創業公司在作這項業務:Cloudera、Hortonworks和MapR
Cloudera和MapR的發行版是收費的,他們基於開源技術,提升穩定性,同時強化了一些功能,定製化程度較高,核心技術是不公開的,營收主要來自軟件收入。
這類公司,若是一直保持技術領先性,那麼軟件收入溢價空間很大。但一旦技術落後於開源社區,整個產品須要進行較大調整。
Hortonworks則走向另外一條路,他們將核心技術徹底公開,用於推進Hadoop社區的發展。這樣作的好處是,若是開源技術有很大提高,他們受益最大,由於定製化程度較少,自身不會受到技術提高的衝擊。
cdh
(1)CDH3版本是基於Apache hadoop 0.20.2改進的,並融入了最新的patch,CDH4版本是基於Apache hadoop 2.X改進的,CDH總
是並應用了最新Bug修復或者Feature的Patch,並比Apache hadoop同功能版本提前發佈,更新速度比Apache官方快。
(2)安全CDH支持Kerberos安全認證,apache hadoop則使用簡陋的用戶名匹配認證
(3)CDH文檔清晰,不少採用Apache版本的用戶都會閱讀CDH提供的文檔,包括安裝文檔、升級文檔等。
(4)CDH支持Yum/Apt包,Tar包,RPM
包,Cloudera Manager四種方式安裝,Apache hadoop
只支持Tar包安裝。
一、聯網安裝、升級,很是方便
二、自動下載依賴軟件包
三、Hadoop生態系統包自動匹配,不須要你尋找與當前Hadoop匹配的Hbase,Flume,Hive等軟件,Yum/Apt會根據當前安裝Hadoop版本自動尋找匹配版本的軟件包,並保證兼容性。
四、自動建立相關目錄並軟鏈到合適的地方(如conf和logs等目錄);自動建立hdfs, mapred用戶,hdfs用戶是HDFS的最高權限用戶,mapred用戶則負責mapreduce執行過程當中相關目錄的權限。
hortonworks
Hortonworks這個名字源自兒童書中一隻叫Horton的大象。雅虎主導Hadoop開發的副總裁,帶領二十幾個核心成員成立Hortonworks。
Hortonworks有兩款核心產品:HDP和HDF
Hortonworks沒有對產品收費,而是將這兩款產品徹底開放,將核心技術放在Hadoop開源社區中,每一個人均可以看到並使用這兩款產品
企業客戶本身開發難度較大的話,就會選擇合做。這就是Hortonworks的盈利模式,經過提供支持服務和後期維護,向企業級客戶收費。
支持服務主要是經過訂閱的方式,客戶須要就某些功能預約一年或者幾年的服務,提早付費。支持服務覆蓋整個週期,從最初的開發和POC階段,到中間的質量測試,直至產品交付。維護服務主要是對企業級客戶的培訓和一些諮詢業務。
mapr
Marp是一個比現有Hadoop分佈式文件系統還要快三倍的產品,而且也是開源的。Mapr配備了快照,並號稱不會出現SPOF單節點故障,且被認爲是與現有HDFS的API兼容。所以很是容易替換原有的系統。
原文:https://www.dezyre.com/article/cloudera-vs-hortonworks-vs-mapr-hadoop-distribution-comparison-/190
對於企業而言,無論過去是否曾使用過Hadoop,正確選擇Hadoop商業發行版都很重要。當企業準備投入巨大的財力在Hadoop平臺的硬件和解決方案上時,選擇某個商業版的Hadoop系統就變得特別重要了。根據業務須要選擇正確的Hadoop商業發行版能夠帶來更多的數據解決方案而且能夠得到業界專業人士的承認。這篇文章將從成本、技術細節、部署和維護等幾個方面比較Cloudera、Hortonworks和MapR發佈的Hadoop版本。
Hadoop 是一個開源項目,前後有許多公司在其框架基礎上進行了加強而且發佈了商業版本。Hadoop項目的最大誘惑在於使用者能夠根據自身的業務須要定製差別化的功能。在Apache開源社區,Hadoop把全部的相關項目組成一個完整的生態系統,用戶幾乎不費吹灰之力就能夠經過搭配一些組件來實現一個完整功能。
哪些人須要Hadoop分佈式系統?
l 須要學習和臨時使用Hadoop的各行業專業人士
l 須要在大數據的背景下推動業務解決方案演進的各種機構
l 須要在Hadoop生態系統中開發新工具的人員
商業版本的Hadoop有哪些改進?
Hadoop商業發行版的提供者們經過優化核心代碼、加強易用性、提供技術支持和持續版本升級爲Hadoop平臺實現了許多新功能。市場上受承認的Hadoop商業發行版的提供者主要有Cloudera,MapR和Hortonworks。 他們發行的Hadoop商業版本都能與Apache社區開源版本兼容,但它們之間有哪些區別呢?
l 框架核心:Cloudera,MapR和Hortonworks這三家公司都把Hadoop核心框架打包到了他們的商業版本中;在這基礎上,他們都提供了技術支持服務和定製化開發服務。
l 系統集成:MapR 的商業版Hadoop可靠地支持一系列功能,包括:實時流數據處理,與已有系統集成的內嵌的鏈接器,數據安全保護,企業級工程品質。
l 系統管控:Cloudera和MapR 商業發行版中都包含了爲系統管理員提供了配置、監控和優化的管控平臺。
Cloudera,Hortonworks和MapR異同之處分析
版本 |
優勢 |
缺點 |
CDH |
CDH有一個友好的用戶界面及一些實用的工具,好比:Impala |
CDH相對MapR Hadoop來講,運行效率顯著下降 |
MapR Hadoop |
運行效率高;節點之間能夠經過NFS直接訪問 |
MapR Hadoop沒有像CDH那樣的用戶界面 |
HDP |
惟一一個能運行在Windows上的Haoop系統 |
Ambari管控界面功能比較簡單,不夠豐富 |
類似性:
l Cloudera, Hortonworks 和MapR三家公司都專一於Hadoop平臺開發,商業版本的Hadoop系統是他們的所有收入來源。
l 這三家公司都是中等規模的公司,都擁有一些優質客戶和來自其餘行業的投資夥伴。
l 這三家公司都提供了免費版本的下載,不一樣的是,MapR和Cloudera 還爲付費客戶提供功能加強版本。
l 這三家公司都創建了技術支持社區幫助用戶解決遇到的問題以及在用戶須要時提供系統演示。
l 這三家公司都經過測試保證發行版本知足用戶業務對穩定性和安全性需求。
下面咱們會在對比每個商業版本功能的基礎上分析其差別性:
Cloudera — CDH
Cloudera 是Hadoop領域知名的公司和市場領導者,提供了市場上第一個Hadoop商業發行版本。它擁有350多個客戶而且活躍於Hadoop生態系統開源社區。在多個創新工具的貢獻着排行榜中,它都名列榜首。它的系統管控平臺——Cloudera Manager,易於使用、界面清晰,擁有豐富的信息內容。Cloudera 專屬的集羣管控套件能自動化安裝部署集羣而且提供了許多有用的功能,好比:實時顯示節點個數,縮短部署時間等。同時,Cloudera 也提供諮詢服務來解決各種機構關於在數據管理方案中如何使用Hadoop技術以及開源社區有哪些新內容等疑慮。美國電商「高朋」公司是CDH的用戶。
CDH的主要特性:
l 在線不停機添加新組件
l 多集羣統一管理
l 提供差別化配置的節點模板。用戶沒必要使用單一配置的Hadoop集羣,能夠依此建立差別化配置的集羣。
l Hortonworks 和Cloudera都依賴於HDFS的DataNode 和NameNode架構來作數據切分。
MapR — Hadoop
MapR的Hadoop商業發行版緊盯市場需求,能更快反應市場須要。一些行業巨頭如思科、埃森哲、波音、谷歌、亞馬遜都是MapR的Hadoop的用戶。與Cloudera和Hortonworks不一樣的是, MapR Hadoop不依賴於Linux文件系統,也不依賴於HDFS,而是在MapRFS文件系統上把元數據保存在計算節點,快速進行數據的存儲和處理。
MapR Hadoop的主要特性:
l 因爲它基於MapRFS,它是惟一一個能不依賴於Java而提供Pig,Hive和Sqoop的Hadoop。
l MapR Hadoop是最適合應用於生產環境的Hadoop版本,它包含了許多易用性、高效和可信賴的加強功能。
l MapR Hadoop集羣節點能夠經過NFS直接訪問,所以用戶能夠像使用Linux文件系統同樣在NFS上直接掛載MapR文件。
l MapR Hadoop提供了完整的數據保護,方便使用而且沒有單點故障。
l MapR Hadoop被認爲是運行最快的Hadoop版本。
儘管從集羣規模來講,MapR Hadoop還不如Hortonworks 和Cloudera,只能暫列第三,但相對其它版本的Hadoop來講,它易用性最強,運行最快。所以,若是用戶想選擇帶有足夠創意和學習資料的Hadoop,那麼MapR Hadoop將是不二之選。
Hortonworks — HDP
Hortonworks是由一些雅虎的工程師創立的公司,提供針對Hadoop的技術服務。與其它公司不一樣的是,它提供徹底開源的Hadoop數據平臺而且用戶能夠無償使用。用戶能夠很方便得下載Hortonworks 的Hadoop發行版HDP並把它集成到各類應用中。Ebay、三星、彭博、Spotify 都是HDP的用戶。Hortonworks 也是第一個基於Hadoop 2.0提供知足生產環境須要的Hadoop版本。儘管CDH在其早期的版本中包含了Hadoop 2.0的部分功能,但這些功能沒法知足生產環境須要。HDP 也是目前惟一能支持Windows的Hadoop版本。用戶能夠在Azure 上經過HDInsight 服務部署Windows上的 Hadoop。
HDP的主要特性:
l HDP 經過Stinger項目提高了Hive的性能
l HDP 經過新的Hadoop分支來避免用戶被廠商綁定
l 聚焦於提高Hadoop平臺的實用性
經過對Hadoop市場上的這三家公司的產品戰略和功能分析後,咱們很難簡單說誰更勝一籌。各種機構須要根據自身業務程度須要來選擇Hadoop商業版本。回答下面這些問題能夠幫助用戶作出選擇:
1. 是否會使系統管理員工做更加高效?
2. 是否便於Hadoop開發人員和業務分析人員訪問數據?
3. 是否知足機構內部關於數據安全的規章制度要求?
4. 是否適合機構內部的系統運行環境?
5. 是否須要Hadoop提供的全部組件和能力?
6. 是否須要大數據的總體解決方案來支撐業務盈利?以及是否須要緊跟開源以減小被廠商綁定?
7. 系統可靠性、技術支持、擴展功能等是否很是重要?
用戶若是指望獲得一個像樣的產品,那選擇MapR Hadoop比較適合;若是須要緊跟開源,那麼就應該選擇Hortonworks;若是用戶的業務需求須要介於兩者之間,那麼Cloudera 就是個不錯的選擇了。
如何選擇Hadoop發行版徹底取決於用戶在實施Hadoop平臺中遇到了什麼樣的困難。Hadoop商業發行版能夠幫助用戶把Hadoop平臺和其餘異構數據分析平臺靈活、可靠、可視化地鏈接起來。每一個Hadoop發行版都有其各自的優勢和缺點。在選擇時,不只要平衡風險和成本,也要考慮各類發行版的附加功能是否符合實際業務場景須要。
一、Hadoop版本綜述
目前Hadoop發行版很是多,有華爲發行版、Intel發行版、Cloudera發行版(CDH)等,全部這些發行版均是基於Apache Hadoop衍生出來的,之因此有這麼多的版本,徹底是由Apache Hadoop的開源協議決定的:任何人能夠對其進行修改,並做爲開源或商業產品發佈/銷售。(http://www.apache.org/licenses/LICENSE-2.0)。
國內絕大多數公司發行版是收費的,好比Intel發行版、華爲發行版等,儘管這些發行版增長了不少開源版本沒有的新feature,但絕大多數公司選擇Hadoop版本時會將把是否收費做爲重要指標,不收費的Hadoop版本主要有三個(均是國外廠商),分別是:
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,簡稱「CDH」)、
Apache基金會hadoop、
Hortonworks版本(Hortonworks Data Platform,簡稱「HDP」)--------按順序表明了,在國內的使用率,CDH和HDP雖然是收費版本,可是他們是開源的,只是收取服務費用。
對於國內而言,絕大多數選擇CDH版本,主要理由以下:
(1) CDH對Hadoop版本的劃分很是清晰,只有兩個系列的版本(如今已經更新到CDH5.20了,基於hadoop2.x),分別是cdh3和cdh4,分別對應第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本則混亂得多;
(2) CDH文檔清晰,不少採用Apache版本的用戶都會閱讀cdh提供的文檔,包括安裝文檔、升級文檔等。
CDH與Apache版本的對應:
cdh3版本是基於apache hadoop 0.20.2
cdh3u6對應到apache hadoop最新版本(Hadoop 1.x)
cdh4對應apache hadoop 2.x
HDP版本是比較新的版本,目前與apache基本同步,由於Hortonworks內部大部分員工都是apache代碼貢獻者,尤爲是Hadoop 2.0的貢獻者。
2、社區版本與第三方發行版本的比較
1.Apache社區版本
優勢:
徹底開源免費。
社區活躍
文檔、資料詳實
缺點:
----複雜的版本管理。版本管理比較混亂的,各類版本層出不窮,讓不少使用者不知所措。
----複雜的集羣部署、安裝、配置。一般按照集羣須要編寫大量的配置文件,分發到每一臺節點上,容易出錯,效率低下。
----複雜的集羣運維。對集羣的監控,運維,須要安裝第三方的其餘軟件,如ganglia,nagois等,運維難度較大。
----複雜的生態環境。在Hadoop生態圈中,組件的選擇、使用,好比Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,須要大量考慮兼容性的問題,版本是否兼容,組件是否有衝突,編譯是否能經過等。常常會浪費大量的時間去編譯組件,解決版本衝突問題。
2.第三方發行版本(如CDH,HDP,MapR等)
優勢:
----基於Apache協議,100%開源。
----版本管理清晰。好比Cloudera,CDH1,CDH2,CDH3,CDH4等,後面加上補丁版本,如CDH4.1.0 patch level 923.142,表示在原生態Apache Hadoop 0.20.2基礎上添加了1065個patch。
----比Apache Hadoop在兼容性、安全性、穩定性上有加強。第三方發行版一般都通過了大量的測試驗證,有衆多部署實例,大量的運行到各類生產環境。
----版本更新快。一般狀況,好比CDH每一個季度會有一個update,每年會有一個release。
----基於穩定版本Apache Hadoop,並應用了最新Bug修復或Feature的patch
----提供了部署、安裝、配置工具,大大提升了集羣部署的效率,能夠在幾個小時內部署好集羣。
----運維簡單。提供了管理、監控、診斷、配置修改的工具,管理配置方便,定位問題快速、準確,使運維工做簡單,有效。
缺點:
----涉及到廠商鎖定的問題。(能夠經過技術解決)
3、第三方發行版本的比較
Cloudera:最成型的發行版本,擁有最多的部署案例。提供強大的部署、管理和監控工具。Cloudera開發並貢獻了可實時處理大數據的Impala項目。
Hortonworks:不擁有任何私有(非開源)修改地使用了100%開源Apache Hadoop的惟一提供商。Hortonworks是第一家使用了Apache HCatalog的元數據服務特性的提供商。而且,它們的Stinger開創性地極大地優化了Hive項目。Hortonworks爲入門提供了一個很是好的,易於使用的沙盒。Hortonworks開發了不少加強特性並提交至核心主幹,這使得Apache Hadoop可以在包括Windows Server和Windows Azure在內的Microsft Windows平臺上本地運行。
MapR:與競爭者相比,它使用了一些不一樣的概念,特別是爲了獲取更好的性能和易用性而支持本地Unix文件系統而不是HDFS(使用非開源的組件)。可使用本地Unix命令來代替Hadoop命令。除此以外,MapR還憑藉諸如快照、鏡像或有狀態的故障恢復之類的高可用性特性來與其餘競爭者相區別。該公司也領導着Apache Drill項目,本項目是Google的Dremel的開源項目的從新實現,目的是在Hadoop數據上執行相似SQL的查詢以提供實時處理。
4、版本選擇
當咱們決定是否採用某個軟件用於開源環境時,一般須要考慮如下幾個因素:
(1)是否爲開源軟件,便是否免費。
(2) 是否有穩定版,這個通常軟件官方網站會給出說明。
(3) 是否經實踐驗證,這個可經過檢查是否有一些大點的公司已經在生產環境中使用知道。
(4) 是否有強大的社區支持,當出現一個問題時,可以經過社區、論壇等網絡資源快速獲取解決方法。
題外篇:
市場,場景,策略及上市的步調不一樣
三家馬車中,Hortonwork和Cloudera前後上市,MapR也加快了上市步伐。
2014年,Hortonworks成功IPO在納斯達克上市。該公司以每股16美圓的價格發行625萬股股票,募集1億美圓資金,開盤首日上漲幅度達到60%,市值接近11億美圓。
2017年4月底,Cloudera以每股15美圓的訂價在紐約證券交易所上市,股價一日上漲超20%至18.09美圓。這一價格也超出了此前公司12到14美圓的預期範圍。Cloudera目前市值約爲23億美圓,遠低於2014年英特爾給出的41億美圓估值。
MapR於2009年成立,曾在五輪風險投資裏拿到1.14億美圓。公司的風投支持者一般但願看到兩個結果,其一是上市,另外一個是被收購。可是媒體2017年6月報道,公司MapR的首席執行官米爾斯說不肯說上市的日期,但表示上市已提到議事日程上。米爾斯表示,「我想上市,但我也想尊重上市的步驟。」
贏利仍是虧損
三大公司的營收狀況怎麼樣?這能夠說是Hadoop 商業化世界的一個風向標。
Hortonworks於2017年5月公佈的消息現實,公司2017年第一季度收入5600萬美圓,同比增加35%,利潤率更高,經營虧損收窄。可是目前依然是虧損。
Cloudera的收入正在增加,截止到1月份的上一財年營收達到2.61億美圓,虧損爲1.86億美圓;2015財年營收爲1.66億美圓,虧損2.03億美圓。Cloudera的多數營收都來自訂閱收入,訂閱期一般爲1至3年,但他們還經過服務獲取營收,包括專業服務、培訓和教育等。
MapR公司的CEO米爾斯認爲,MapR的銷售額在不斷增加,平均交易規模大於10萬美圓,但他不肯評論成本或虧損。
商業模式
一樣基於開源的Hadoop,可是三大公司所採用的商業模式卻各有不一樣。
Cloudera採用發佈Hadoop商業版和發佈商用工具的模式。所謂的Hadoop發行商,有點相似於Linux世界裏的RedHat。公司經過開源軟件的包裝,整合穩定的版本造成一個套餐。經過讓企業用戶購買套餐來實現盈利。因此,Cloudera給全部使用了其Hadoop的套餐的用戶提供收費技術支持。
同時,Cloudera也提供免費的版,用戶能夠在網站上隨便下載無償使用的。可是Cloudera同時又提供如Cloudera Manager的企業管理組件,在最初三個月試用以後就要收費的。
MapR走的和Cloudera相似的商業模式,可是它是以發佈商業化工具產品爲主,同時提供發行版。
Hortonworks提供的軟件都是100%開源免費下載,將核心技術放在Hadoop開源社區中,每一個人均可以看到並使用。對於企業客戶來講有了源代碼,如何與本身系統相結合、加強功能、調試故障、對接應用等都是問題。企業客戶若是想用這項技術,本身開發難度較大的話,就會選擇合做。這就是Hortonworks的盈利模式,經過提供支持服務和後期維護,向企業級客戶收費。
支持服務主要是經過訂閱的方式,客戶須要就某些功能預約一年或者幾年的服務,提早付費。支持服務覆蓋整個週期,從最初的開發和POC階段,到中間的質量測試,直至產品交付。維護服務主要是對企業級客戶的培訓和一些諮詢業務。