背景
隨着數據量的爆發式增加,數字化轉型成爲整個IT行業的熱點,數據也開始須要更深度的價值挖掘,所以須要確保數據中保留的原始信息不丟失,從而應對將來不斷變化的需求。當前以oracle爲表明的數據庫中間件已經逐漸沒法適應這樣的需求,因而業界也不斷的產生新的計算引擎,以便應對數據時代的到來。在此背景下,數據湖的概念被愈來愈多的人提起,但願能有一套系統在保留數據的原始信息狀況下,又能快速對接多種不一樣的計算平臺,從而在數據時代佔據先機。數據庫
概述
什麼是數據湖
數據湖(Data Lake)以集中式存儲各類類型數據,包括:結構化、半結構化、非結構化數據。數據湖無需事先定義Schema,數據能夠按照原始形態直接存儲,覆蓋多種類型的數據輸入源。數據湖無縫對接多種計算分析平臺,對Hadoop生態支持良好,存儲在數據湖中的數據能夠直接對其進行數據分析、處理、查詢,經過對數據深刻挖掘與分析,洞察數據中蘊含的價值。安全
數據湖的關鍵特徵與價值
海量數據存儲:面向海量數據存儲設計,徹底獨立於計算框架以外,無需額外的掛載操做,數據可直接訪問,具有極大的靈活性和彈性能力,足以應對數據爆炸式發展,同時支持多層冗餘能力,實現數據高可靠與高可用微信
高效數據計算:豐富的數據存儲類型和共享能力,支持存儲結構化、半結構化、非結構化數據,同時能夠適配多種不一樣的計算平臺,避免數據孤島與無效的數據拷貝架構
安全數據管理:支持數據目錄功能,智能化的管理海量的數據資產,經過精細化權限控制保障數據安全oracle
基於OSS的數據湖存儲
OSS介紹
阿里雲對象存儲OSS(Object Storage Service)是阿里雲提供的海量、安全、低成本、高可靠的雲存儲服務。其數據設計持久性不低於99.9999999999%(12個9),服務可用性(或業務連續性)不低於99.995%。OSS具備與平臺無關的RESTful API接口,您能夠在任何應用、任什麼時候間、任何地點存儲和訪問任意類型的數據。app
基於OSS構建數據湖存儲
OSS在做爲數據湖存儲,充分知足數據湖的關鍵特性:框架
海量數據存儲:
OSS採用分佈式系統架構,扁平命名空間設計,支持無限制的存儲規模,而且性能和容量能夠隨着系統擴展線性提高分佈式
OSS支持彈性擴容,容量自動擴展,不限制存儲空間大小,用戶能夠根據所需存儲量無限擴展存儲空間,並只按照實際使用量收取費用,無需客戶本身提早配置oop
OSS支持數據高可用,1)在同一地域內(region)採用多可用區(AZ)冗餘機制以及跨地域的複製機制,避免單點故障致使數據丟失或沒法訪問;2)支持數據週期性校驗,避免靜默數據損壞;3)支持Object操做強一致性,寫入Object的數據在返回成功響應後,當即可讀;4)支持多版本能力,防止數據誤刪。總體OSS知足12個9的數據持久性以及995%的服務可用性性能
高效數據計算:
OSS提供RESTFul API,具備互聯網可訪問能力,用戶能夠隨時隨地當即存儲或者訪問數據,無需提早進行映射和掛載操做
OSS兼容開源Hadoop生態,且無縫對接阿里雲多種不一樣的計算平臺,使得數據無需拷貝便可被計算平臺共享使用。同時針對部分計算平臺優化特定操做,從而提高數據處理性能
OSS支持算子卸載能力,目前提供了Select語句支持,可讓用戶從單個文件中僅讀取須要的數據,從而提高數據獲取效率
安全數據管理:
OSS支持數據生命週期管理,用戶能夠經過設置生命週期規則,將符合規則的數據自動刪除或者轉儲到更低成本的存儲中
OSS支持客戶端和服務端兩種數據加密能力,用戶能夠根據自身狀況靈活選擇加密方案,避免數據泄露
OSS經過WORM(Write Once Read Many)特性,支持數據保留合規,容許用戶以「不可刪除、不可篡改」方式保存和使用數據,符合美國證券交易委員會(SEC)和金融業監管局(FINRA)的合規要求(OSS已得到對應的合規認證)
OSS支持多種數據訪問安全控制策略,實現針對bucket、object、role的長期或者臨時受權,從而知足最小權限數據共享的安全策略
總結
綜合以上內容,在將來面向海量數據的數據湖場景下,對象存儲OSS很是適合企業構建海量、高效、安全的數據湖。
更多數據湖相關信息交流請加入阿里巴巴數據湖技術釘釘羣(保存圖片後用釘釘掃碼)
本文分享自微信公衆號 - Apache Spark技術交流社區(E-MapReduce_Spark)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。