張小龍談「大數據五種開源處理技術」

時間 2021-01-03

標籤 javascript java 程序員數據庫編程數組網絡框架編程語言分佈式欄目 JavaScript 简体版

原文原文鏈接

概述javascript

如今市場上有超過25萬個開源技術出現了。如何選擇？讓咱們一塊兒看下5種激動人心的大數據技術。java

Storm 和Kafka是將來數據流處理的主要方式，它們已經在一些大公司中使用了，包括 Groupon,阿里巴巴和The Weather Channel等。程序員

Storm,誕生於Twitter,是一個分佈式實時計算系統。Storm 設計用於處理實時計算,Hadoop主要用於處理批處理運算。數據庫

kafka是由LinkedIn研發的一款消息系統，做爲一個數據處理的管道基礎部分存在於系統中。當你一塊兒使用它們，你就能實時地和線性遞增的獲取數據。編程

一、Storm\Kafka數組

使用Storm和Kafka,使得數據流處理線性的，確保每條消息獲取都是實時的，可靠的。先後佈置的Storm和Kafka能每秒流暢的處理10000條數據。像Storm和Kafka這樣的數據流處理方案使得不少企業引發關注並想達到優秀的ETL(抽取轉換裝載)的數據集成方案。Storm 和 Kafka 也很擅長內存分析和實時計算支持。企業使用批量處理的Hadoop方案沒法也難對實現實時的業務需求。網絡

在企業的大數據解決方案中實時數據流處理是必須的，由於它很優美的處理了「3v」–volume,velocity 和 variety (容量，速率和多樣性)。框架

Drill和Dremel 實現了快速低負載的大規模，即時查詢數據搜索。它們提供了秒級搜索P級別數據的可能，來應對即席查詢和預測，及提供強大的虛擬化支持。編程語言

Drill和Dremel提供強大的業務處理能力，不只僅只是爲數據工程師提供。業務端的你們都將喜歡Drill和Dremel。Drill 是Google的Dremel的開源版本。Dremel是Google提供的支持大數據查詢的技術。分佈式

Hadoop生態圈使得MapReduce做爲一個很親切有利的工具應用於廣告分析。從Sawzall到Pig到Hive,不少接口層應用的創建使得Hadoop更爲友好，更接近業務，可是，像SQL體系，這些抽象層忽略一個重要的事實–MapReduce(或Hadoop)是爲了系統化數據處理流程而存在的。

在堆對比的工做流基礎的方法論中，不少業務驅動的BI和分析查詢都是很基本的和臨時交互的，低延時分析。一些數據科學家早已經推測Drill和Dremel將優於Hadoop。在Infochimps咱們喜歡使用Elasticsearch全文索引引擎來實現數據庫的數據搜索，可是真的在大數據處理中咱們認爲Drill將成爲主流。

二、R

R是開源的強大的統計編程語言。自1997年以來，超過200萬的統計分析師使用R。這是一門誕生自貝爾實驗室的在統計計算領域的現代版的S語言並迅速地成爲了新的標準的統計語言。R使得複雜的數據科學變得更廉價。R是SAS和SPASS的重要的領頭者，並做爲最優秀的統計師的重要工具。

由於它有一個非凡強大的社區在支持着，你能夠找到全部的R的類庫，建立虛擬的各種型的科學數據而不用新寫代碼。R之因此使人興奮是由於維護他的人和新的天天的創造。R社區是大數據領域使人興奮的地方之一。R在大數據領域是一個超棒的不會過期的技術。

在最近的幾個月裏，幾千個新特性被日益公開的知識基礎爲主的分析類型的分析師們介紹.並且，R和Hadoop協同的很好，做爲一個大數據的處理的部分已經被證實了。

三、Jualia

Julia ，是一個有趣的R的替代者，由於它不喜歡R的死慢死慢的解釋器。Julia的社區雖然不怎麼強大如今，可是若是你不是當即使用它的話，仍是能夠等等的。Gremlin 和 Giraph 幫助加強圖形分析，並在圖數據庫像Neo4j和InfiniteGraph中被使用，和與Hadoop協同工做的Giraph中被使用。

Golden Orb是另外一個高層面的流處理的圖基礎的項目的例子。能夠看看。圖數據庫是富有魅力的邊緣化的數據庫。它們和關係型數據庫相比，有着不少有趣的不一樣點，這個是當你在開始的時候老是想用圖理論而不是關係型理論。

另外一個相似的圖基礎的理論是Google的Pregel,相比來講Gremlin和Giraph是其的開源替代。實際上，這些都是Google技術的山寨實現的例子。圖在計算網絡建模和社會化網絡方面發揮着重要做用，可以鏈接任意的數據。另一個常常的應用是映射和地理信息計算。從A到B的地點，計算最短的距離。

圖在生物計算和物理計算領域也有普遍的應用，例如，他們能繪製不尋常的分子結構。海量的圖，圖數據庫和分析語言和框架都是一種現實世界上實現大數據中的一部分。圖基礎的理論是一個殺手級的應用，爲何這麼說?任何一個解決大型網絡節點問題，都是經過節點和節點之間的路徑來處理的。不少富有創造力的科學家和工程師們，都很明白的用正確的工具來解決對應的問題。

四、SAP hANA

SAP Hana 是一個全內存的分析平臺，它包含了一個內存數據庫和一些相關的工具軟件用來建立分析流程和規範正確的格式來進行數據的輸入輸出。

Hana 假設其餘的程序處理時候還不夠快的解決遇到的問題，例如，金融建模和決策支持，網站個性化和欺騙檢測等等。Hana最大的缺點是」全內存「這意味着訪問軟狀態的內存，這個是很明確的有點，可是這個也是相比磁盤存儲來講很昂貴的部分。據組織者說，不用擔憂操做成本，Hana是快速的低延遲的大數據處理工具。

五、D3

D3是一個javascript面向文檔的可視化的類庫。它強大的創新性的讓咱們能直接看到信息和讓咱們進行正常的交互。它的做者是Michael Bostock一個紐約時報的圖形界面設計師。例如，你可使用D3來從任意數量的數組中建立HTMl表格。你能使用任意的數據來建立交互進度條等。使用D3，程序員能之間建立界面，組織全部的各類類型的數據。

開始正式的使用Hadoop已經有近一年的時間的了，這期間從百度出來，到初見在到如今的BitWare，在不一樣的公司，用不一樣的技術解決問題。可是本質上遇到的問題老是那麼幾個，固然如今不少公司也開始嚐鮮的使用Hadoop的了。這個是大環境是如此，能夠理解。

Storm和Kafka 從11年起，就開始關注了，Storm在阿里也有部分二線應用，可是總體而言，剛剛滿一歲的Storm在nathanmarz大俠的打磨下愈來愈穩定了，並有部分線上的應用了。因此對這個技術，整體而言，我我的仍是很看好的，由於如今使用hadoop沒法實現實時的處理，使用HBase來爲主要的數據庫來使用了，暫時仍是能解決.