本文由 伯樂在線 - Lex Lian 翻譯。
英文出處:Anand Krishnaswamy。歡迎加入翻譯小組。html
Hadoop一般被認定是可以幫助你解決全部問題的惟一方案。 當人們提到「大數據」或是「數據分析」等相關問題的時候,會聽到脫口而出的回答:Hadoop!實際上Hadoop被設計和建造出來,是用來解決一系列特定問題的。對某些問題來講,Hadoop至多算是一個很差的選擇。對另外一些問題來講,選擇Hadoop甚至會是一個錯誤。對於數據轉換的操做,或者更普遍意義上的抽取-轉換-裝載的操做(譯者注:Extraction Transformation Load,ETL,數據倉庫中對數據從初始狀態到可用狀態處理過程的經典定義), 使用Hadoop系統可以獲得不少好處, 可是若是你的問題是下面5類之中的一個的話,Hadoop可能會是一不合適的解決方案。git
不少人相信他們擁有正真「大」的數據, 但一般狀況並不是如此。 當考慮數據容量和理解大多數人對「大數據」處理的想法的時候, 咱們應當參考這篇研究論文, 沒有人會由於買了一個集羣的服務器而被辭退,它告訴了咱們一些有趣的事實。 Hadoop是被設計成用來處理在TB或PB級別的數據的, 而世界上大多數的計算任務處理的是100GB如下的輸入數據。(Microsoft和Yahoo在這個數據統計上的中位數是14GB,而90% Facebook的任務處理的是100GB如下的數據)。對於這樣的狀況來講, 縱向擴展的解決方案就會在性能上賽過橫向擴展(scale-out)的解決方案。github
(譯者注:縱向擴展scale-up一般是指在一臺機器上增長或更換內存、CPU、硬盤或網絡設備等硬件來實現系統總體性能的提高, 橫向擴展(scale-out)指的是經過在集羣中增長機器來提高集羣系統總體性能的提高。論文中比較了對Hadoop系統進行各類縱向擴展和橫向擴展以後, 在性能指標上進行評測的試驗。結論是在某些狀況下在一臺機器上的縱向擴展會比在Hadoop集羣中增長機器獲得更高的系統性能,並且性價比會更好。這個結論打破了大多數人對Hadoop系統的簡單認識, 那就是必定要用若干廉價的機器組成集羣才能到達最好的總體性能。 )算法
因此你須要問本身:數據庫
當你在Hadoop系統中提交計算任務的時候, 最小的延遲時間是1分鐘 。 這意味系統對於客戶的商品購買信息要花1分鐘的時間才能響應並提供相關商品推薦。這要求系統有很是忠實和耐心的客戶, 盯着電腦屏幕超過60秒鐘等待結果的出現。 一種好的方案是將庫存中的每一件商品都作一個預先的相關商品的計算, 放在Hadoop上。 而後提供一個網站,或者是移動應用來訪問預先存儲的結果,達到1秒或如下的即時響應。 Hadoop是一個很是好的作預先計算的大數據引擎。 固然,隨着須要返回的數據愈來愈複雜,徹底的預先計算會變得愈來愈沒有效率。apache
因此你須要問本身:編程
(譯者注:原做者應該是用了B2C電子商務網站上經典的商品推薦功能做爲用例,描述如何用Hadoop實現這個功能。)緩存
對於要求實時響應查詢的問題來講,Hadoop並非一個好的解決方案。Hadoop的計算任務要在map和reduce上花費時間, 而且在shuffle階段還要花時間。 這些過程都不是能夠在限定時間內能夠完成的, 因此Hadoop並不適合用於開發有實時性需求的應用。一個實際的例子是,在期貨或股票市場的程序化交易系統(Program Trading)中用到的成交量加權平均價格(Volume-weighted average price,VWAP)的計算,一般是實時的。這要求交易系統在限定時間內將結果給到用戶,使得他們可以進行交易。服務器
(譯者注:Hadoop的MapReduce中的shuffle過程指的是將多個map任務的結果分配給一個或多個reduc任務是的數據洗牌和分配的操做,這篇blog解釋的比較詳細,http://langyu.iteye.com/blog/992916 。 這裏的用例是在投資銀行的程序交易中,如何計算股票或期貨交易的基準價格。 這樣的計算我以爲每次對數據的查詢響應時間應該是在100ms如下的,詳見http://baike.baidu.com/view/1280239.htm,http://baike.baidu.com/view/945603.htm。關於這個例子,相信投行的xdjm們應該有更多的發言權。)網絡
對數據分析人員來講, 他們實際上很是想使用SQL這樣的查詢語言的。Hadoop系統並不能很好地支持對存儲在Hadoop上的數據的隨即訪問 。即使你使用了HIVE來幫助將你的相似SQL的查詢轉換成特定MapReduce計算任務的時候, 數據的隨機訪問也不是Hadoop的強項。Google的Dremel系統(和它的擴展, BigQuery系統)被設計成可以在幾秒中以內返回海量的數據。啓示SQL還可以很好地支持數據表之間的各類join操做。 另一些支持實時響應的技術方案包括,從Berkley 加州分校(University of California, Berkeley)的AmpLab誕生的Shark項目, 以及Horntoworks領導的Stinger項目等。
因此你須要問本身:
(譯者注:Apache Hive 是Hadoop生態系統中的一個開源項目,其主要目的是在Hadoop系統上提供接近ANSI SQL的數據操做,以方便熟悉SQL語言的數據分析人員對Hadoop上的數據進行查詢。Dremel 系統是Google開發的支持大數據的實時查詢系統,它利用了精心設計的列式存儲結構和大規模並行查詢的機制, 在測試中可以到達在3秒內在分析和查詢1PB數據的性能(英文論文,中文翻譯 )。 BigQuery是Google基於Dremel開發出的開放給開發人員的SaaS服務,能夠對大量數據進行操做 。Berkeley Data Analytics Stack, BDAS 是AmpLab提供的基於Hadoop的大數據平臺, 包含多個開源項目, 詳見https://amplab.cs.berkeley.edu/software/。Spark項目是BDAS中的一個項目, 它使用Scala語言開發,提供了相似於SQL的數據操做接口,徹底兼容Hive。其主要的特色是利用底層的Spark將查詢翻譯爲具體的計算任務。Spark會經過大量使用Hadoop集羣中結點上內存的方式來進行數據緩存和在內存中進行實時計算, 達到加速查詢和計算的目的。詳見http://shark.cs.berkeley.edu/。Hortonworks是目前幾家專一於提供基於Hadoop的大數據系統和應用的公司之一, Stinger是用來 Horontoworks提出的爲了提高Hive查詢性能的一系列在基於Hadoop的項目和改進的總稱,其主要方法是優化Hive的文件存儲格式以及針對Hive的查詢請求進行分析優化。)
咱們應該認識到, Hadoop是在批處理的模式下工做的。 這意味着當有新的數據被添加進來的時候, 數據處理的計算任務須要在整個數據集合上從新運行一遍。因此,隨着數據的增加,數據分析的時間也會隨之增長。 在實際狀況下,小塊新數據的增長、單一種類的數據更改或者微量數據的更新都會實時地發生。一般, 商業程序都須要根據這些事件進行決策。 然而,不論這些數據多麼迅速地被輸入到Hadoop系統,在Hadoop處理這些數據的時候,仍然是經過批處理的方式。Hadoop 2.0的MapReduce框架YARN承諾將解決這個問題。 Twitter使用的Storm平臺是另外一個可行的、流行的備選方案。將Storm和例如Kafka這樣的分佈式消息系統結合在一塊兒,能夠支持流數據處理和彙總的各類需求。痛苦的是,目前Storm並不支持負載平衡,可是Yahoo的S4版本中會提供。
因此你須要問本身:
實時性的廣告應用和收集傳感器的監控應用都要求對流數據的實時處理。 Hadoop以及之上的工具並非解決這類問題的惟一選擇。 在最近的Indy 500車賽中,邁凱輪車隊在他們的ATLAS系統中使用了SAP的HANA內存數據庫產品來進行數據分析,並結合Matlab來進行各類模擬,對比賽中實時獲得的賽車遙測數據進行分析和計算。不少數據分析人員認爲,Hadoop的將來在於可以支持實時性和交互性的操做。
(譯者注:YARN是Hadoop2.0採用的新不一樣於MapReduce的資源管理和任務處理的框架,它號稱可以支持比MapReduce更廣的編程模型, 同時實現對實時查詢和計算的任務的支持,詳見http://hortonworks.com/hadoop/yarn/ 。Storm是由Twitter主導的開源項目, 是一種分佈式數據處理系統,其主要特色是可以很好地支持實時性要求高的流數據處理,詳見http://storm-project.net 。淘寶和阿里巴巴都在使用Storm。Simple Scalable Streaming System, S4 是由Yahoo建立的另一個實時流數據處理的分佈式系統,詳見http://incubator.apache.org/s4/ 。這裏有一篇網頁引用了不少比較Yahoo S4和Storm的文章,http://blog.softwareabstractions.com/the_software_abstractions/2013/06/links-comparing-yahoo-s4-and-storm-for-continuous-stream-processing-aka-real-time-big-data.html 。Kafka是Apache 的一個開源項目,http://kafka.apache.org/。HANA是 SAP推出的商業產品,是可一個支持橫向擴展的內存數據庫解決方案,能夠支持實時的大數據分析和計算。詳見http://www.sap.com/HANA。Matlab是Mathworks公司開發的一個用於科學計算的開發類產品, www.mathworks.com/products/matlab. McLaren 車隊是著名的英國F1車隊, 它是F1方程式比賽中一支很是成功的隊伍。同時他們也參加美國著名的Indy 500賽車比賽。他們使用大數據平臺處理賽車數據來提升賽車成績的故事能夠看這篇文章,http://blogs.gartner.com/doug-laney/the-indy-500-big-race-bigger-data/ )
當數據可以被分解爲鍵值對,又不用擔憂丟失上下文或者某些數據之間隱性關係的時候,Hadoop,特別是MapReduce框架,是最好的選擇。可是圖這樣的數據結構中包含着各類隱性的關係, 如圖的邊、子樹 、節點之間的父子關係、權重等,並且這些關係並不是都能在圖中一個結點上表示。這樣的特性就要求處理圖的算法要在每一次的迭代計算中加入當前圖的完整或部分的信息。 這樣的算法基本上用MapReduce的框架是不可能實現的,即使可以實現也會是一種很迂迴的解決方案。 另一個問題是如何制定將數據切分到不一樣結點上的策略。若是你要處理的數據的主要數據結構是圖或者是網絡, 那麼你最好選擇使用面向圖的數據庫,好比NeoJ或者Dex。或者你能夠去研究一下最新的Google Pregel 或者Apache Giraph項目。
因此你須要問本身:
(譯者注:NeoJ 擁有商業和GPL雙許可證模式,詳見http://www.neo4j.org/,Dex是商業產品,詳見http://www.sparsity-technologies.com/dex 。Apache Giraph 項目http://giraph.apache.org是根據Google Pregel論文http://dl.acm.org/citation.cfm?id=1807184,http://kowshik.github.io/JPregel/pregel_paper.pdf 的開源實現 ,是用來分析社交網絡這樣能夠被抽象爲圖或網絡數據結構的大數據處理平臺。 )
不少的計算任務、工做及算法從本質上來講就是不適合使用MapReduce框架的。 上一章中已經談到了其中一類的問題。另外一類的問題是,某些計算任務須要上一步計算的結果來進行當前一步的計算。一個數學上的例子就是斐波那契數列的計算。 某些機器學習的算法,如梯度和最大指望等,也不是很適合使用MapReduce的模式。不少研究人員已經對實現這些算法中須要的特定優化和策略(全局狀態,計算時將數據結構傳入進行引用等)給出了建議,可是若是用Hadoop來實現具體算法的話,仍是會變得很複雜並且不易被理解。
因此你須要問本身:
(譯者注:梯度方法, gradient method一般用於數學優化計算中,詳見http://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95。最大指望算法maximization expectation algorithm ,一般用於機率模型及相應的機器學習算法中, http://zh.wikipedia.org/zh-cn/%E6%9C%80%E5%A4%A7%E6%9C%9F%E6%9C%9B%E7%AE%97%E6%B3%95 )
除此以外,須要考慮另一些狀況, 好比,數據總量並不大,或者數據集雖然很大,但主要是由上億的小文件組成,並且不能拼接(如,許多圖形文件須要以不一樣的形狀被輸入進來)。正如咱們以前說到的,對於那些不適合使用MapReduce分割、合併原則的計算任務,若是用Hadoop來實現他們的話,會讓Hadoop的使用變得大費周折。
如今咱們已經分析了在哪些狀況下Hadoop不合適,讓咱們看一下在哪些狀況下使用Hadoop是正確的選擇。
你須要問本身,你的組織是否,
若是以上答案都爲「是」,那麼你就應該深刻研究Hadoop。
以上所談到的幾類問題表明了至關大部分可以用Hadoop來解決的商業問題(儘管不少行業報告的結論是將這些類別的Hadoop系統部署到生產環境中並非一件容易的事情)。對於某些計算任務,Hadoop的計算模型是很是合適的。 好比說, 你須要處理海量的非結構化或半結構化的數據,而後將內容進行彙總或者將相關計算結果轉換成結構化的數據, 而且將結果提供給其餘組件或系統使用。若是收集的數據能夠很容易地被轉換位一個ID以及和它對應的內容(用Hadoop的術語來講就是鍵值對,key-value pair),那麼你就可使用這種簡單的關聯來進行不一樣種類的彙總計算。
總的來講, 關鍵是要認清你擁有的各類資源,而且理解想要解決的問題的本質。 結合本文提到的一些觀點和你本身的理解和認識, 你就可以選擇最適合你的工具。 在某些狀況下, 最終的解決方案頗有多是Hadoop。