摘要: Forrester發佈了Now Tech: Cloud Data Warehouse Q1 2018報告,報告對雲化數據倉庫(Cloud Data Warehouse, CDW)的主要功能、區域表現、細分市場和典型客戶等進行了全面評估。數據庫
1.前言安全
本文基於Now Tech: Cloud Data Warehouse, Q1 2018 (Published: by Noel Yuhanna, March 13, 2018)進行了分析,文中內容僅表明我的觀點。網絡
2018年3月13日Forrester發佈了Now Tech: Cloud Data Warehouse Q1 2018報告。報告對雲化數據倉庫(Cloud Data Warehouse, CDW)的主要功能、區域表現、細分市場和典型客戶等進行了全面評估,最終AWS、阿里雲、Google、微軟四大巨頭殺入全球一線陣營。阿里雲DataWorks+MaxCompute成爲惟一入選的中國產品。架構
報告中,Forrester強調了CDW的四方面核心能力:併發
·靈活部署。CDW應具備多種靈活的部署模式。針對小型客戶,CDW應可提供在線多租戶的模式,使客戶有能力快速調集計算資源,在數分鐘內完成數據倉庫的部署。針對大中型客戶,CDW應提供獨佔式或本地部署的模式,提供強大的計算性能和絕對的安全保障,同時屏蔽複雜的技術細節;運維
·高效數據上雲。對於未將數據倉庫雲化的客戶,或者採用線上-線下混合架構的客戶,CDW應提供快速、低成本的方式,幫助用戶完成數據集成。ide
·多樣化分析手段。CDW應提供多種技術手段,幫助用戶在各類業務場景中,得到想要的數據加工能力。工具
·安全性。CDW的安全性應全面考慮數據加密、審計、脫敏、訪問控制等各方面。性能
DataWorks(https://data.aliyun.com/produ...)做爲阿里巴巴CDW服務能力的核心,爲什麼能得到Forrester的青睞呢?今天咱們來作一個解讀。大數據
2.DataWorks產品架構
在正式開始解讀以前,咱們先來了解一下DataWorks在阿里雲CDW服務體系中的角色,以及DataWorks的產品架構。
在阿里雲的衆多產品中,DataWorks和MaxCompute共同構成了CDW服務能力的核心。其中,MaxCompute做爲存儲計算引擎,扮演了IaaS層支撐的角色,爲使用者提供了海量可靠的大數據表存儲,以及SQL執行的能力。可是,僅僅有了MaxCompute是不夠的。爲了讓大數據技術能真正的給客戶賦能,還須要數據開發、數據集成等一系列CDW服務,而DataWorks就提供了較爲完整的解決方案。
具體來看,她包含8個主要模塊:
3.靈活部署
Forrester在報告中大篇幅的闡述了多種部署形態的必要性,並對多家CDW進行了對比,而DataWorks是第一陣營中爲數很少的提供多種部署方式的產品。
首先,做爲阿里巴巴集團數據中臺體系的核心,DataWorks從2009年開始便支持阿里集團、螞蟻金服、菜鳥等全集團業務。只要使用了淘寶、天貓、螞蟻金服等產品的數據服務,就有可能間接使用了DataWorks的計算服務。
其次,DataWorks已在公有云中開放。截止目前,DataWorks已服務4000+公有云客戶,支撐了新浪微博、人人車、天弘基金等重要客戶。
最後,DataWorks還支持專有云輸出。做爲大數據能力賦能的重要手段,DataWorks出如今了Apsara Enterprise等阿里雲專有云解決方案中。從2015年至今,已支撐了包括「城市大腦」、「最多跑一次」等重量級政企項目。
經過靈活的部署方式,DataWorks能夠知足多種不一樣形態的客戶需求。對於小型用戶,能夠經過公有云方式靈活支撐;對於大中型客戶,專有云或混合雲的解決方案也徹底能夠知足客戶需求。
4.高效數據上雲
高效的數據集成方式對企業數據上雲的意義不言而喻。在初始上雲階段,企業須要把本身的數據資產快速安全的遷移到雲上;在持續運營階段,企業須要將各類形態的數據輸入到CDW中,並將CDW中加工完成的數據結果輸出到各個業務單元。
DataWorks的數據集成提供了對多種類型數據源進行讀寫的能力,包括對關係型數據庫、NoSQL數據庫、大數據數據庫、文本存儲(FTP)等,能對數據源頭的數據資源可以進行統一清點,並可以在複雜網絡狀況下對異構的數據源進行數據同步與集成。在具體的導入任務編排上,DataWorks支持離線數據的批量、全量、增量同步,支持分鐘、天、小時、周、月來自定義同步時間。
DataWorks的數據集成還具備數據流管控的能力,可以從髒數據、數據流速、併發線程數等多個維度管控數據流的行爲,多方位節約用戶成本,實現精益化管理。
5.多樣化分析手段
DataWorks提供了強大的數據開發IDE,支持從SQL代碼編輯、集成任務編輯到業務流程DAG圖的可視化編輯。而多人在線協做功能和任務腳本的版本管理功能也很是切合企業級數據開發的實際需求。除了常規的離線處理任務外,DataWorks還提供了輕量級工具「數據分析工做臺」,充分利用MaxCompute的計算能力,知足用戶即席數據分析的需求。
據悉,DataWorks近日還更新了拖曳式業務流程編輯功能,進一步改善用戶體驗,打造多是最好用的數據開發IDE。
6.安全性
DataWorks將數據安全能力視爲重中之重,敏感數據防禦更須要符合行業規定和數據隱私法律等規定。DataWorks提供了數據安全模塊,經過如下幾方面提供了全方位的數據安全保護:
·多租戶隔離。DataWorks擁有本身的多租戶權限模型。租戶可按需申請資源配額,獨立管理本身的資源;租戶也能夠獨立管理自有的數據、權限、用戶、角色,彼此隔離,以確保數據安全。
·數據安全等級設定。經過數據安全等級,發現和定位敏感數據,明確其在數據資源平臺上的分佈狀況,根據定義的敏感數據類型自動發現敏感數據,併爲其分級分類。一般分爲絕密、機密、正常等等級進行對應安全規則保障。
·數據訪問審計。DataWorks對於特權用戶的訪問有嚴格的審查流程,包括什麼時候訪問,執行哪些操做,執行順序等等。記錄審計特權用戶的訪問記錄,能夠確保特權用戶在正確的時間完成了正確的操做,審查是否有越軌行爲的出現,進而保證數據系統的安全。
·數據脫敏。DataWorks可以在在不肯定可以排除那些用戶,那些訪問地址,甚至那些字段爲可疑或者有害訪問時,關注數據內容自己,抓住敏感信息點,並有針對性地對該部分信息進行動態訪問遮蔽,從而達到保護數據安全的目的。
目前,DataWorks已經過了公安部信息安全等級保護三級認證。
7.總結
隨着社會各行各業「互聯網+」改革的深刻,企業對數據資產的管理、加工、利用的訴求愈來愈強烈。利用雲計算技術,互聯網公司得以快速的將自身的大數據處理能力對外賦能。這也是在Forrester的榜單中,全球主要的四家雲服務公司,得以超越Oracle、IBM等老牌數倉技術公司,成爲一線CDW供應商的緣由。
得益於阿里巴巴多年的數據利用經驗沉澱,DataWorks在部署模式、數據集成、分析手段、數據安全等各方面都實現了與企業級需求的高度契合。
據瞭解,DataWorks還會持續輸出更多先進的數據管理理念,包括實時數據集成、數據資產分析等。將雲計算技術與數倉管理方法論有機結合,保持不斷迭代,致力於打造「最適合於大數據數倉建設的平臺」,我想這正是DataWorks入選Forrester CDW榜單的緣由。
閱讀更多幹貨好文,請關注掃描如下二維碼: