hadoop商業版本選擇對比

記得剛接觸到hadoop的時候跟大部分人同樣都會抱怨hadoop的安裝部署問題,對於一個新手來講這這的是個頭疼的問題,可能須要花費一成天的時間才能把分佈式環境安裝配置好。在剛接觸hadoop的一段時間裏,能夠說對於hadoop的理解一直都是停留在相對較膚淺的層面。後來隨着本身的不斷摸索以及向圈內的前輩大神請教交流(主要是向大神請教學來的),本身對於hadoop的認識以及應用也就更加嫺熟。安全

做爲一個過來人,在這裏給新人分享一些關於hadoop版本選擇的問題,但願別像我當時傻乎乎的只知道hadoop有1.0.x和2.x版本。運維

當前hadoop的發行版本除了Apache的開元版本以外,華爲發行版、Intel發行版以及Cloudera發行版等。上面說的這幾個第三方的發行版已經有相對較長的一些時間,除此以外還有最近幾年異軍突起的DKhadoop商業發行版。分佈式

國內的大多數公司推出的Hadoop發行版都是收費的,免費的發行版則主要是國外的,好比Apache的發行版、Cloudera發行版等。面對如此多的hadoop版本難免會讓人難以選擇。下面咱們就簡單對比一些這些不一樣版本的優缺點,但願對於新手可以有所幫助。工具

Apache發行版:oop

優勢:Apache發行版的優勢主要集中表如今它的徹底開源免費、社區活躍性以及文檔、資料詳實等方面。性能

缺點:Apache發行版的缺點也相對較多,具體表如今如下幾個方面:spa

  1. 複雜的版本管理。版本管理比較混亂,各類版本層出不窮,讓使用者不知所措。
  2. 複雜的集羣部署、安裝、配置。一般按照集羣須要編寫大量的配置文件,分發到每一臺節點上,容易出錯,效率低下。
  3. 複雜的集羣運維。對集羣的監控,運維,須要安裝第三方的其餘軟件,如ganglia,nagois等,運維難度較大。
  4. 複雜的生態環境。在Hadoop生態圈中,組件的選擇、使用,好比Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,須要大量考慮兼容性的問題,版本是否兼容,組件是否有衝突,編譯是否能經過等。常常會浪費大量的時間去編譯組件,解決版本衝突問題。

第三方發行版本的優缺點:(如CDH,HDP,MapR等hadoop

優勢:第三方發行版本的優勢主要有如下幾個:文檔

  1. 基於Apache協議,100%開源;
  2. 相較於原生的hadoop在兼容性、安全型以及穩定性方面有所提高;
  3. 版本管理清晰,更新更快;
  4. 提供了部署、安裝、配置工具,大大提升了集羣部署的效率,能夠在幾個小時內部署好集羣;
  5. 運維簡單。提供了管理、監控、診斷、配置修改的工具,管理配置方便,定位問題快速、準確,使運維工做簡單,有效。

缺點:第三方hadoop發行版的主要缺點就是涉及到廠商鎖定的問題,但這一問題能夠經過技術方面解決掉。部署

DKhadoop發行版:

Dkhadoop發行版是我目前接觸的以及使用一個版本。與市場的其餘第三方的發行版本相比較,整合程度要更高,但一樣也保持了開源系統的所有優勢。綜合目前使用的狀況看,在性能上相較於以往使用的一些第三方hadoop發行版要提高不少的!關於DKhadoop發行版的問題,感興趣的能夠本身去查閱收集一些資料看看。

相關文章
相關標籤/搜索