大數據分析在過去幾年裏很是流行。即使如此,不少組織發現,現有的數據挖掘和分析技術仍是不能勝任大數據的處理任務。對於這個question,一個可能的解決方案就是搭建Hadoop集羣,但它並不適合全部狀況。讓咱們瞭解一下使用Hadoop集羣的優缺點。 服務器
Hadoop集羣是什麼? 運維
Hadoop集羣是一種專門爲存儲和分析海量非結構化數據而設計的特定類型的集羣。本質上,它是一種計算集羣,即將數據分析的工做分配到多個集羣節點上,從而並行處理數據。 工具
搭建Hadoop集羣的優勢 oop
使用Hadoop集羣最大的好處在於它很是適合大數據分析。大數據通常都是分佈普遍而且是非結構化的。而Hadoop很是適合這類數據是由於,Hadoop的工做原理在於將數據拆分紅片,並將每一個「分片」分配到特定的集羣節點上進行分析。數據沒必要均勻分佈,由於每一個數據分片都是在獨立的集羣節點上進行單獨處理的。 學習
Hadoop集羣的另一個優勢在於可擴展性。和其它任何類型的數據同樣,大數據分析面臨的一個重要question也是數據量的不斷增長。並且大數據最大的優點在於能夠實時或接近實時地進行分析處理。而Hadoop集羣的並行處理能力能明顯提升分析速度,但隨着要分析的數據量的增長,集羣的處理能力可能會收到影響。但使人欣慰的是,經過添加額外的集羣節點能夠有效的擴展集羣。 大數據
Hadoop集羣的第三個好處在於成本。這一點聽起來彷佛有些奇怪,畢竟分析大數據是一個企業級的IT活動,一直以來企業級的IT應用從未廉價過。可是,事實證實,Hadoop集羣的確是一個高性價比的解決方案。 spa
Hadoop集羣較爲廉價有兩個主要緣由。它所需的軟件是開源的,這樣就能夠下降成本。事實上,你能夠自由下載Apache Hadoop發行版。同時,Hadoop集羣經過支持商用硬件控制了成本。沒必要購買服務器級硬件,即可以搭建一個強大的Hadoop集羣。 設計
Hadoop集羣的另外一個優勢在於故障容錯。當一個數據分片發送到某個節點進行分析時,該數據在集羣其它節點上會有副本。經過這種方式,即便一個節點發生故障,該節點數據的額外拷貝仍存在於集羣內的其它地方,這樣,數據仍能夠進行分析處理。 server
Hadoop集羣的缺點 get
儘管Hadoop集羣有以上衆多的優勢和好處,但它卻並不是是對於全部企業都適用的數據分析解決方案。好比某企業的數據量相對較少,即便亟需數據分析也可能不會受益於Hadoop集羣。
使用Hadoop集羣的另一個缺點在於集羣解決方案是創建在數據「可分」以及可在獨立節點上進行並行處理的基礎之上的。若是要作的分析不適應於並行處理環境,那麼Hadoop集羣就不是完成這項任務的合適工具。
也許使用Hadoop集羣最顯著的缺點在於集羣的搭建、運維和支持是一個陡峭的曲線。除非剛好在你的IT部門裏有Hadoop專家,不然學習如何搭建集羣和執行所需的數據分析任務需耗費些時日。
既然如此,咱們是否應該搭建Hadoop集羣呢?答案取決於你的數據分析需求是否與Hadoop集羣功能相符。若是你不肯定企業可否受益於Hadoop集羣,那麼在提交搭建大型集羣以前,能夠先下載安裝Apache Hadoop到多餘的硬件上看看效果如何。