Hadoop版本選擇

剛開始學習Hadoop時就曾經一直抱怨Hadoop的安裝部署爲何這麼麻煩,對於一個新手須要捯飭一天才能把分佈式環境安裝配置好。而對於一個自學Hadoop而周圍又沒人交流的菜鳥來講,我對Hadoop的理解一直停留在很膚淺的層面,能應用,但對內部的原理知之甚少。最近和一個作這方面的朋友聊天,他問我你學習Hadoop是用的什麼版本搭建環境,我說Hadoop版本那麼多我也記不太清了,他只是笑笑就沒再多問。apache

回來後我又仔細想了想他問的話,不會是問的別的意思吧,難道Hadoop不是隻分1.0.x和2.x這些雜七雜八的版本?上網一搜才感受這下丟人丟大發了,原來Hadoop除了Apache這個版本,還有這麼多第三方的版本,並且已經很好地解決了Hadoop部署管理複雜的問題。因此在此記錄一下,也給新人提個醒。安全

目前Hadoop的發行版除了Apache的開源版本以外,還有華爲發行版、Intel發行版、Cloudera發行版(CDH)、Hortonworks發行版(HDP)、MapR等,全部這些發行版均是基於Apache Hadoop衍生出來的,由於Apache Hadoop的開源協議容許任何人對其進行修改並做爲開源或者商業產品發佈。運維

國內大多數公司發行版是收費的,好比Intel發行版、華爲發行版等。不收費的Hadoop版本主要有國外的四個,分別是Apache基金會hadoop、Cloudera版本(CDH)、Hortonworks版本(HDP)、MapR版本。分佈式

Apache社區版本優缺點

優勢:工具

  • 徹底開源免費
  • 社區活躍
  • 文檔、資料詳實

缺點:oop

  • 複雜的版本管理。版本管理比較混亂,各類版本層出不窮,讓使用者不知所措。
  • 複雜的集羣部署、安裝、配置。一般按照集羣須要編寫大量的配置文件,分發到每一臺節點上,容易出錯,效率低下。
  • 複雜的集羣運維。對集羣的監控,運維,須要安裝第三方的其餘軟件,如ganglia,nagois等,運維難度較大。
  • 複雜的生態環境。在Hadoop生態圈中,組件的選擇、使用,好比Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,須要大量考慮兼容性的問題,版本是否兼容,組件是否有衝突,編譯是否能經過等。常常會浪費大量的時間去編譯組件,解決版本衝突問題。

第三方發行版本(如CDH,HDP,MapR等)優缺點

優勢:學習

  • 基於Apache協議,100%開源。
  • 版本管理清晰。好比Cloudera,CDH1,CDH2,CDH3,CDH4,CDH5等,後面加上補丁版本,如CDH4.1.0 patch level 923.142,表示在原生態Apache Hadoop 0.20.2基礎上添加了1065個patch。
  • 比Apache Hadoop在兼容性、安全性、穩定性上有加強。第三方發行版一般都通過了大量的測試驗證,有衆多部署實例,大量的運行到各類生產環境。
  • 版本更新快。一般狀況,好比CDH每一個季度會有一個update,每年會有一個release。
  • 基於穩定版本Apache Hadoop,並應用了最新Bug修復或Feature的patch
  • 提供了部署、安裝、配置工具,大大提升了集羣部署的效率,能夠在幾個小時內部署好集羣。
  • 運維簡單。提供了管理、監控、診斷、配置修改的工具,管理配置方便,定位問題快速、準確,使運維工做簡單,有效。

缺點:測試

  • 涉及到廠商鎖定的問題。(能夠經過技術解決)

總結

綜上所述,考慮到大數據平臺高效的部署和安裝,中心化的配置管理,使用過程當中的穩定性、兼容性、擴展性,以及將來較爲簡單、高效的運維,遇到問題低廉的解決成本。
建議使用第三方發行版本。
其中在第三發發行版中,國內應用較多的是Cloudera的CDH。你們也能夠詳細對比優缺點,根據本身的須要作選擇。大數據

相關文章
相關標籤/搜索