gemfire:VMware大數據之道

當雲計算趕上大數據,怎樣在虛擬環境中獲取大數據的價值,是企業必須面臨的問題。其中最關鍵的一個部分就是:內存虛擬化。算法

gemfire:VMware大數據之道

gemfire:VMware大數據之道數據庫

VMware給出了他們的答案:在統一的vSphere雲架構之上,提供GemFire實時處置、GreenPlum交互處置及Hadoop批處置三種模式,知足用戶的海量、快速及靈活的大數據處置需求,併爲開發者、數據剖析師、數據科學家和商務用戶提供數據剖析及可視化的數據展現。安全

與IBM、EMC、富士通、Intel等前後推出Hadoop刊行版差異,Vmware更專一於基礎架構層面。在一場2000餘人到場的VMware & EMC大數據雲高峯論壇上,VMware公司大中華區總裁宋家瑜表示,雲的平臺纔是惟一能解決爆炸性大數據使用的需求,把關鍵應用移到雲平臺已是一個必定趨勢。服務器

gemfire: VMware大數據之道

gemfire: VMware大數據之道網絡

Hadoop因爲其低成本和高擴展性的優點,成爲各大廠商處置海量數據的法寶,但虛擬基礎架構雲上的Hadoop,存在可靠性問題。憑據阿帕奇Virtual Hadoop wiki文檔給出的結論,能夠將Hadoop帶到雲基礎架構上,但物理和虛擬基礎設施之間的差別可能危及數據完整性和安全性。架構

如今,VMware開源項目Serengeti試圖改變這個問題。該項目將容許企業在雲端和虛擬環境中,在 vSphere 上部署和治理Hadoop。併發

範承工介紹,Serengeti將Hadoop在虛擬基礎架構的部署時間從許多天縮短到10分鐘,同時還可以提升硬件的利用率,可以知足多租戶的需求,有更好的安全隔離,也有更好的伸縮性。Vmware還介紹,經過 vSphere,Hadoop應用如若節點失敗可以自動重啓。異步

VMware試圖在統一的vSphere雲架構之上,提供GemFire實時處置、GreenPlum交互處置及Hadoop批處置三種模式,知足用戶的海量、快速及靈活的大數據處置需求,併爲開發者、數據剖析師、數據科學家和商務用戶提供數據剖析及可視化的數據展現。分佈式

Vmware還作了一個UAP(Universal Analytics Platform)的大數據剖析平臺,其中包括Greenplum database、Hadoop和Chorus分享軟件,這個平臺能夠幫助客戶同時剖析處置結構化和非結構化的數據。ide

經過Chorus系統,數據科學家能夠自助的建立圖形工做區,搜索和獲取這些企業當中的數據。接下來建立數據剖析沙箱,也不會影響別人,當他有新的發現以後,又能夠把他的發現孝敬給其餘的數據科學家進行不停的改良。

雲端大數據剖析工具Cetas,該產品來源於Vmware收購的一家提供在Hadoop平臺之上的剖析服務的公司,提供實時剖析的能力,能夠對市場的變化作出快速反映。Cetas經過公共雲提供服務,易於部署,內建高效的剖析算法,且簡單易用,極度容易的可以把數據上傳到雲裏面,能夠提供一個可視性的圖表,對數據進行很好的展現。這也意味着,無需專業的數據科學家和統計科學家就能夠進行商業剖析。

在知足快速需求上,Vmware有GemFire和SQLFire,他們都是內存爲主導的數據庫形式,能夠實時地對數據的反映。在靈活上,Vmware提供了Object的GemFire的方式,爲關係型數據庫提供選擇。

身兼兩職的GemFire,實際上並不是傳統的內存數據庫,而是橫向擴展的疏散式的數據庫,能夠和現有的數據庫共存,把它的優勢發揮出來。它有許多平行的算法,能夠應對OLTP,OLAP數據剖析等等。

由此看來,Vmware經過併購與研發,提供了包括虛擬服務器層、應用平臺層、以及應用之上的數據層的技術。同時,這幾種技術也能夠一塊兒使用,以知足用戶全部的應用需求。所以,說總體的大數據解決方案是恰如其分。

背景介紹:傳統的數據庫大多接納ACID(即(Atomicity, Consistency, Isolation, Durability)規則進行設計,隨着數據量和業務量的擴大,同時爲了保持數據的一致性,在併發過程加入了大量的鎖控制,所以傳統的基於硬盤存儲的數據庫徐徐成爲了大型系統和複雜操做的IO和擴展性瓶頸所在。

VMware的gemfire正好提供這一條理的內存虛擬化技術,將傳統意義的數據庫進行了內存級其它虛擬化,建立了電腦集羣級其它內存池,大大減小了IO延遲,從而軟件開發人員不用在考慮硬盤條理的數據交換,設計上更加靈活自由,給OLAP等應用帶了新的飛躍。

現有的gemfire部署方式有三種:P2P,client-server 或者 super-peer,hub-spoke組織的架構。

擴展閱讀:

12306接納Pivotal GemFire分佈式解決方案 解決尖峯高流量併發問題

中國鐵路客戶服務中央網站www.12306.cn是世界規模最大的實時買賣系統之一,媲美Amazon.com,節假日尤爲是春節的訪問高峯,網站壓力巨大。2012年6月選擇了Pivotal GemFire分佈式內存計算平臺(Distributed In-memory computing)改造12306,由鐵科院項目小組負責人王明哲主任和資拓宏宇(IISI)信息科技有限公司在鐵科院主管朱建生所長領導下提供技術實行。

gemfire: VMware大數據之道

gemfire: VMware大數據之道

GemFire是Pivotal企業級大數據PaaS平臺的一部分。Pivotal公司的企業級大數據PaaS平臺主要有三個條理:雲基礎架構層 Cloud Fabric、大數據基礎架構層Data Fabric、應用開發基礎架構層Application Fabric。GemFire屬於大數據基礎架構層,此外,Greenplum數據庫也屬於這一層;雲基礎架構層的技術是Cloud Foundry;應用開發基礎架構層的技術是Spring Framework和RabbitMQ等。

12306以前接納Unix小型機架構,接納GemFire技術改形成Linux/X86服務器集羣架構,就意味着一下跨越三代。從小型機到大內存X86服務器集羣,不只讓性能提高了一個數量級,並且成本也要低得多。

2012年3月開始,鐵路總公司(原鐵道部)開始調研、改造12306。2012年6月選擇了Pivotal GemFire分佈式內存計算平臺(Distributed In-memory computing)改造12306,一期先改造12306的主要瓶頸——餘票查詢系統。9月份完成代碼改造,系統上線。2012年國慶,又是網上訂票高峯期間,大師能夠顯著發現,能夠登陸12306,雖然仍是很難訂票,可是查詢餘票很快。2012年10月份,二期用 GemFire改造訂單查詢系統(客戶查詢本身的訂單記錄)。2013年春節,又是網上訂票高峯期間,大師能夠顯著發現,能夠登陸12306,雖然仍是很難訂票,可是查詢餘票很快,並且查詢本身的訂票和下訂單也很快。

gemfire: VMware大數據之道

gemfire: VMware大數據之道

中國鐵道科學研究院電子計算技術研究所副所長朱建生表示,「經過技術改造解決了困擾咱們多時的尖峯高流量併發問題,讓全國人民再也不因爲技術起因而埋怨,咱們終於舒了一口氣。Pivotal GemFire分佈式集羣內存數據技術對整個技術改造發揮了關鍵的做用。同時,感謝Pivotal公司及實際上施方項目團隊的努力,在技術開改造過程當中確保舊系統順暢運行、舊系統到新系統平滑遷移,快速實現新系統的上線。」

gemfire: VMware大數據之道

gemfire: VMware大數據之道

據統計, 在2012年頭的春運高峯期間,每日有2000萬人訪問12306網站,日點擊量最高到達14億。大量同時涌入的網絡訪問形成12306幾近癱瘓。 中國鐵道科學院電子計算技術研究所做爲12306互聯網購票系統的承建單位,急需追求方法解決問題。

憑據系統運行數據記錄,技術改造以後,在只接納10幾臺X86服務器實現了之前數十臺小型機的餘票計算和查詢能力,單次查詢的最長時間從以前的15秒左右降低到0.2秒如下,縮短了75倍以上。2012年春運的極端高流量併發狀況下,系統幾近癱瘓。而在改造以後,支持每秒上萬次的併發查詢,高峯期間到達2.6萬個查詢/秒吞吐量,整個系統效率顯著提升。如上圖所示。

訂單查詢系統改造,在改造以前的系統運行模式下,每秒只能支持300-400個查詢/秒的吞吐量,高流量的併發查詢只能經過度庫來實現。改造以後,能夠實現高達上萬個查詢/秒的吞吐量,並且查詢速度能夠保障在20毫秒左右。

新的技術架構能夠按需彈性動態擴展,並量增長時,還能夠經過動態增長X86服務器來應對,保持毫秒級的響應時間。

gemfire: VMware大數據之道

gemfire: VMware大數據之道

12306可以取得這樣排山倒海的效果,靠技術上的小修小補是不行能的,必須有全新的思緒,可以給性能提高帶來槓桿式的做用。12306發現GemFire分佈式內存數據平臺就是這樣一種技術。

GemFire分佈式內存數據平臺的技術原理如上圖所示:經過雲計算平臺虛擬化技術,將若干X86服務器的內存集中起來,組成最高可達數十TB的內存資源池,將所有數據加載到內存中,進行內存計算。計算過程本身不須要讀寫磁盤,只是按期將數據同步或異步方式寫到磁盤。GemFire在分佈式集羣中保存了多份數據,任何一臺機器故障,其它機器上另有備份數據,所以一般不用擔心數據丟失,並且有磁盤數據做爲備份。GemFire支持把內存數據持久化到種種傳統的關係數據庫、Hadoop庫和其它文件系統中。

gemfire: VMware大數據之道

gemfire: VMware大數據之道

大師知道,當前計算架構的瓶頸在存儲,處置器的速度根據摩爾定律翻番增加,而磁盤存儲的速度增加很緩慢,由此形成巨大高達10萬倍的差距。這樣就很好理解GemFire爲何可以大幅提升系統性能了。

根據計算與存儲的關係,咱們能夠將計算架構分爲四代:

第一代,基於磁盤的單一系統:計算過程當中須要從磁盤讀取數據。小型機、大型機是其中的佼佼者,將單一系統的性能作到極致。

第二代,基於磁盤的分佈式集羣系統:計算過程當中須要從磁盤讀取數據,但經過度布系統將數據疏散到差異的服務器磁盤上,提升整個系統的處置能力。如今許多大型互聯網和電子商務公司接納基於X86服務器的分佈式集羣系統,依賴海量的X86服務器部署解決高流量併發的問題。

第三代,基於內存的單一系統:將整個數據庫放在內存中,計算過程不須要從磁盤讀取數據。整個系統的性能取決於單一系統的性能。傳統的內存數據庫就是這樣的系統,對於企業級的應用能夠很好地解決訪問速度的問題,但面臨海量數據或是海量併發訪問的擴展性問題就無能爲力。

第四代,基於內存的分佈式集羣系統:GemFire就是這樣的系統,並行計算是其關鍵技術之一,於是能夠經過增長服務器部署規模,在內存計算的基礎上,線性擴展性能

相關文章
相關標籤/搜索