今天,隨着企業數字化進程的推動,多雲成爲了企業IT基礎設施建設的重要特色。多雲戰略的實施,幫助企業下降了成本,提升了服務效率及安全性。特別是全球性跨國公司,不只須要業務集中化管理,同時須要知足不一樣地域的業務運營和監管需求。相比於 AWS、Azure、谷歌雲等公有云上的雲原生數據倉庫,HashData 經過支持多種對象存儲,可以提供徹底兼容多個公有云與混合雲的數據管理能力。數據庫
以Amazon S3爲例,以下表格從多個維度將對象存儲與Hadoop 體系架構中的HDFS進行比較:
咱們能夠看到,相對於傳統的HDFS分佈式存儲,以S3爲表明的對象存儲服務不只具有彈性能力,同時在可用性與持久性上也提升了約一個數量級,而成本卻只有前者的十分之一。因而可知,在雲計算時代,對象存儲已經全面超越HDFS,成爲將來大數據的基礎。安全
此外,對象存儲的訪問方式是基於HTTP協議的,可以無縫與各類Web應用和工具集成,並應用於廣域網,從而實現跨數據中心、跨雲平臺的數據訪問,使多雲架構、跨雲數據共享成爲可能。服務器
在主流的數據庫系統(包括Oracle、DB二、PostgreSQL等)術語中,都有一個叫表空間(Tablespace)的概念。表空間是數據庫系統中,數據庫邏輯結構和文件系統物理結構之間創建映射的重要存儲結構,它做爲數據庫與實際存儲數據的物理存儲設備之間的中間層,用來指明數據庫中數據存放的物理位置。任何表的建立都必須顯式或隱式地爲其指定表空間,且數據庫中的全部數據均位於表空間中。架構
繼承於PostgreSQL的表空間,HashData雲數據倉庫創新性地在傳統的表空間與對象存儲中的存儲桶(Bucket)之間創建映射關係,經過不一樣的表空間無縫對接多個跨平臺、跨地域的對象存儲系統,從而實如今一個集羣中訪問不一樣平臺、不一樣類型、不一樣地域的對象存儲系統,使得應用能夠根據數據重要性、訪問地域等因素選擇性地將不一樣數據放在不一樣的對象存儲系統中。分佈式
下面,咱們以數據加載爲例,比較一下傳統ETL架構圖(基於Greenplum Database)與HashData基礎架構對比圖:
HashData 數據庫ETL架構(上圖右)相對於傳統的數據庫ETL架構(上圖左)不須要額外的ETL服務器支持以及配置複雜的ETL過程。咱們只須要將原始數據文件上傳到對象存儲上,而後在數據庫中建立指向這些數據文件的外部表,即可以使用OSS協議,經過segment進行並行的數據導入,並將通過格式轉化、編碼壓縮的數據(方便後續的高效訪問)從新落回到對象存儲中,完成ETL過程。工具
以某網省數據遷移爲例,本來應用的商業版對象存儲,在自建對象存儲團隊後,用自研對象存儲替換商業版對象存儲,總數據量約爲2PB,存儲半年數據,應用方案以下:oop
實踐中,如下爲整個方案的核心過程模擬,經過HashData 集羣將數據從一個Bucket(表明舊的對象存儲)遷移到另外一個Bucket(表明新的對象存儲)下面,使用的對象存儲是青雲QingCloud的對象存儲服務QingStor:性能
多雲環境下,面對市場上多個公有云廠商(如AWS、阿里雲、騰訊雲等,它們提供各自的對象存儲服務)及種類繁多的私有云解決方案(它們的對象存儲大多基於開源的Ceph,Swift,Minio等),如何高效、安全且低成本地實施多雲戰略是每一個CIO須要認真考慮的問題。自公司創立之初,咱們就堅信對象存儲將成爲將來大數據的基礎。做爲公司旗艦產品,HashData 雲數據倉庫圍繞着對象存儲和抽象服務構建,經過將計算與存儲解耦,支持多種對象存儲,使跨雲、跨數據中心的數據共享成爲了可能,爲企業多雲戰略的實施提供了一個靈活而易用的解決方案。大數據