apache的大數據時代

世界各地無數的組織,他們使用的數據如今日益龐大而複雜,使用傳統的數據處理程序已沒法再進行優化分析及得到洞察。而這正是的新一代的大數據應用程序要解決的問題。近期Apache軟件基金會(ASF)又將一批有趣的開源大數據項目畢業爲的Apache頂級項目。這意味着,這些項目將可以獲得積極的發展和社區的大力支持。git

大多數人都聽過的Apache Spark,一個針對Streaming, SQL,機器學習和圖形處理的內置模塊的大數據處理架構。 IBM和其餘公司正在投入數十億美金開發資金到Spark項目,NASA和SETI Institute正在利用Spark的機器學習能力,合做分析TB數量級的外太空無線信號數據,尋找外星智能生命存在的形式。數據庫

然而,其餘幾個最近被Apache擢升爲頂級的大數據項目也值得您額外關注。事實上,他們中的一些所構建和發展的生態系統,極可能將對Spark發起挑戰。結合本週舉行的「ApacheCon北美峯會」(ApacheCon North America conference)和「Apache大數據峯會」(Apache: Big Data events),本文將概括那些你應該知道的Apache的大數據項目。數組

下面是六個正在冉冉興起的項目:網絡

Kylin

Apache近日宣佈其Kylin項目,一個始於eBay的開源大數據項目在eBay已經畢業爲頂級項目。Kylin是一個開源的分佈式分析引擎,旨在提供在Apache Hadoop之上SQL接口的多維分析引擎(OLAP),可支持超大數據集。它已普遍在eBay和其餘一些組織中被採用。架構

「Apache Kylin的孵化之旅已經證實Apache軟件基金會(ASF)開源治理的價值,以及圍繞項目建設開源社區和生態系統的強大力量。」Apache Kylin副總裁Luke Han(韓卿)說: 「咱們的開源社區是世界上最大的本土開發者參與的社區,徹底依照The Apache Way的社區運做方式。」機器學習

做爲一個領先的基於Hadoop的OLAP解決方案,Apache Kylin填補了大數據與人使用之間的空白,他補充說道:「使分析人員,最終用戶,開發者和數據愛好者可以在大規模數據集上進行亞秒級延遲的交互式分析。基於這些能力,Apache Kylin將商業智能(BI)帶回Apache Hadoop以釋放出大數據的價值。」分佈式

Lens

Apache近日宣佈,Apache Lens,一個開源的大數據和分析工具,也已經從Apache孵化器畢業成爲一個頂級項目(TLP)。根據公告:「Apache Lens是一個統一的分析平臺,以統一視圖形式爲分析查詢提供了優化的執行環境。Apache Lens旨在經過提供一個跨多個數據存儲的單一視圖來橫向打通數據分析中遇到的異構單元。」微服務

「經過在數據之上提供一個在線的分析處理(OLAP)模型,Lens無縫地集成Hadoop和傳統數據倉庫,提供統一的外部接口。它同時提供系統中查詢歷史、統計和查詢的生命週期管理。」工具

「在ASF中孵化Apache Lens是一段神奇的經歷」 Apache Lens的副總裁Amareshwari Sriramadasu說:「Apache Lens從最終用戶角度出發,爲大數據分析解決了一個難題,它使得業務用戶、分析師、開發者和其餘用戶,能夠輕鬆的進行復雜的數據分析,而不須要了解底層的數據架構。」oop

Ignite

ASF還宣佈Apache Ingite成爲了一個頂級項目,一個經過開源方式創建的內存數據網絡。Apache Ignite是一個高性能的整合的分佈式的內存數據網絡,實如今大規模數組上進行實時的計算和交互。Apache社區成員認爲「可能比傳統的硬盤或閃存技術要快幾個數量級。它的設計使現有的以及各類新的應用能夠輕鬆的部署在一個價格適宜的行業標準的大規模並行架構的硬件上。」

Brooklyn

ASF宣佈Apache Brooklyn已成爲一個TLP(頂級項目)。「這標誌着該項目的社區和產品在ASF優異的流程和原則下治理有方。」Brooklyn是用於整合跨多個數據中心的應用程序的藍圖和管理平臺,並適用於各類雲端軟件。

Brooklyn 宣稱:「隨着現代應用程序正在由更多個部件組成,微服務架構又逐漸興起,部署以及已部署應用的演化愈來愈成爲一個難題。Apache Brooklyn的藍圖提供了一個清晰簡潔的方式,在部署到公共雲或私有基礎設施以前,來規範應用,及它的組件、配置和組件之間的關聯性。這種創建在自主計算理論的基礎上的策略管理,會不斷地評估運行應用程序,修改以保持它的運行健康和指標優化,例如成本和響應能力。」

Brooklyn已經在一些知名企業中應用。雲服務商Canopy和Virtustream已在Brooklyn上提供產品。IBM也已經大規模的使用Brooklyn,以將大量工做從AWS遷移到IBM Softlayer之上。

Apex

今年4月,Apache軟件基金會將Apex項目提高至頂級項目。它被稱爲「應用在Apache Hadoop生態系統的大規模,高吞吐量,低延時,能容錯的,統一的大數據流和批量處理平臺。」 Apex與Apache Hadoop資源管理平臺YARN,一塊兒做用於Hadoop工做集羣。

Tajo

最後,Apache Tajo,一個領先的Apache Hadoop之上的開源數據倉庫系統,成爲另外一個你須要瞭解的大數據項目。Apache宣稱Tajo提供了針對Hadoop、第三方數據庫以及商用BI工具的快速抓取能力。

顯然,儘管Apache Spark吸引了大量的眼球,但它不是惟一須要你關注的來自Apache的大數據工具。今年接下去,Apache也許會將更多引人注目的大數據項目升級爲頂級項目,這些項目必將由此得到更好的開發資源和更多的受益。

相關文章
相關標籤/搜索