數據湖十年風雨路,雲服務商緣何脫穎而出

數據湖,是一個並不新穎卻愈來愈被用戶看重的名詞。數據庫

從2010年Pentaho公司的創始人兼首席技術官詹姆斯·狄克遜(James Dixon)首次提出數據湖的概念開始,數據湖十年發展之路可謂是兜兜轉轉、起起伏伏。在這期間,既有開源廠商們提出的各類營銷理念,也有傳統存儲廠商打造的各種解決方案,更有業界對於數據湖帶來的數據沼澤、數據價值探索等問題的深刻思考。服務器

時至現在,數據湖雖然經歷了各類各樣的「挫折」,可是數據湖在數字化時代給用戶帶來的價值已經愈發清晰。而率先幫助用戶走出數據湖價值落地之路的,不是開源廠商,也不是傳統存儲廠商,偏偏是以AWS爲表明的雲服務提供商們。架構

這背後有何原因?這一切還得從數據湖的本質談起。ide

數據湖的價值凸顯

維基百科對於數據湖的定義是:「Data Lake是一個以原始格式存儲數據的存儲庫或系統。它按原樣存儲數據,而無需事先對數據進行結構化處理。一個數據湖能夠存儲結構化數據、非結構化數據以及二進制數據等。」工具

數據湖最大的價值在於能夠幫助用戶梳理清楚從數據存儲、數據匯聚到數據挖掘這些過程。好比,相比於數據倉庫對於數據協做有規則限制,數據湖對於數據寫入沒有限制,能夠更容易的收集數據;數據湖能夠匯聚來自各類數據源的數據,並進行數據拉通,從而消除數據孤島的問題;而數據湖中存放着最原始的數據則更加有利於數據價值的挖掘。oop

千萬不要小看數據湖所能完成的這些數據處理過程。這些都是用戶們在數字化時代發揮數據價值所必不可少的基礎。時至今日,數據其實已經成爲數字化時代的一種最爲重要的生產資料,數據正在加速重塑企業與組織的生產、經營、銷售、服務等流程,就如AWS首席雲計算企業戰略顧問張俠所指出的:「在當今企業中,數據流就是企業的血液流,企業的數字化轉型很重要的一個方向就是把數字化的資產好好利用起來。」性能

數據湖十年風雨路,AWS緣何脫穎而出

數據湖成爲大勢所趨大數據

與此同時,數據湖在過去十年並不缺少產品與解決方案,爲什麼數據湖失敗的案例依然很多,爲什麼又是以AWS爲表明的雲服務提供商們率先走在數據湖解決方案落地的最前沿?雲計算

事實上,做爲很早推進數據湖服務的公司,AWS的數據湖解決方案成功並非偶然。首先,Amazon做爲全球最大的互聯網公司之一,其數據規模、數據複雜度、數據處理難度、數據價值挖掘在業界無出其右,因爲背靠Amazon,AWS數據湖解決方案自然就獲得了不斷的歷練,好比Amazon內部一個數據湖部署--Galaxy,就存儲了超過50PB的數據量,天天進行着多達60萬的數據分析任務。人工智能

其次,AWS數據湖在產品技術層面進行了持續的提高與完善,其產品組合的成熟度和豐富程度走在了業界的前列。舉個例子,大部分數據湖解決方案都是基於開源Hadoop的,但以前Hadoop集羣的計算和存儲緊耦合架構,使得數據湖架構的擴展成本高、效率低;而AWS在構建數據湖解決方案時候,很重要的一個選擇就是讓計算與存儲分離,在存儲上採用S3對象存儲服務,從而讓數據湖解決方案能夠更好地應用在用戶業務領域。

另外,AWS做爲雲計算市場的龍頭,其公有云的環境也有利於數據湖解決方案的部署,在過去十年中爲多個不一樣行業、不一樣規模的用戶提供相關的數據湖服務,積累了豐富的用戶實踐經驗。

在產品、解決方案以及用戶實踐上的領先其實就是AWS在數據湖領域脫穎而出的祕訣所在。

十年以後,AWS描繪出數據湖全景圖

從十年前的概念到現在被愈來愈多行業用戶所認同和採用,數據湖現在再也不只是一個名詞,它更表明着一種進化,它是過去十年數字化驅動下,用戶在數據層面的需求、技術、產品不斷進化的一個縮影。

過去十年移動化、社交化帶來了數據指數級增加、數據來源普遍化、數據類型多元化,而像5G、物聯網、邊緣計算的興起,只會加重數據應用的趨勢,而且會讓現代數據應用的複雜性進一步提高,這偏偏反映出用戶過去十年對數據應用的需求不斷驅動着數據湖走向落地。

在技術層面來看,雲計算、大數據以及人工智能具有自然融合在一塊兒的屬性,雲計算無疑是過去十年對整個IT產業界帶來最大變革的技術,它的彈性、靈活爲數據湖帶來了堅實的基礎;而人工智能在過去幾年取得突破性的發展,使之成爲驅動數據湖發展的最大驅動力之一。

而過去十年也是數據湖產品與解決方案不斷走向成熟的十年。像AWS這樣的供應商已經逐步打造出很是全面與完善的數據湖解決方案,能夠涵蓋從數據收集、匯聚到分析、應用、可視化等方方面面。「數據湖從2014年進入了發展的第二個階段。以AWS爲例,圍繞數據湖相關的技術、產品已經基本成熟。」張俠如是說。

根據介紹,AWS數據湖平臺包括了數據倉庫、大數據處理、交互查詢、運營分析、數據交換、可視化、實時分析、推薦、預測分析。事實上,AWS這種全面的數據湖生態完整覆蓋了數據湖的數據收集、存儲、分析、應用四個階段,而且這些產品、工具以及服務彼此之間並非孤立的,互相配合能夠達到更加出色效果,快速、便捷地幫助用戶構建起數據湖相關應用。

數據湖十年風雨路,AWS緣何脫穎而出

AWS擁有涵蓋全面的數據分析組件

在AWS 數據湖平臺中有不少很是出色的組件,能夠幫助用戶解決數據湖中典型的挑戰。好比,Amazon EMR大數據處理組件,能夠在AWS上輕鬆運行Spark、Hadoop、Hive等大數據分析。EMR解決了開源生態集羣部署與維護升級繁雜的痛點,這對於用戶快速應用數據湖開源產品與工具大有裨益,

而 Amazon Redshift是一款性能優秀、強大、使用簡單、全託管的數據倉庫服務,能夠輕鬆進行大規模並行處理,支持TB級規模數據的擴展,能夠經過Spectrum引發將查詢擴展到Amazon S3,與數據湖集成能夠進行EB級的數據湖分析。

其餘像Amazon Kinesis、AWS Lake Formation、Amazon Aurora、Amazon S3等都是AWS上深受用戶喜歡的產品與服務。張俠認爲:「數據湖在雲計算時代得以快速發展,它發展到如今已經包含了全部的數據庫、數據倉庫等服務,是企業數據體系的基礎。數據湖其實比國內流行的數據中臺更加全面,任何想構建數據中臺的企業其實均可以在AWS找到全面的解決方案。」

多款新品落地,AWS加速中國數據湖應用

在中國市場,各個行業用戶對於數據湖也是經歷了一個從認知到承認的過程。張俠坦言,當前中國市場的數據湖應用依然處於早期階段,整個市場有着很是大的潛力。

中國數據湖市場之因此是一個重要且廣闊的市場,無外乎三點:

首先,中國對於數字經濟的重視程度超乎想象,從國家政策仍是企業自身都對於發展數字經濟有着普遍的共識,數字經濟加速推進了各個行業的數字化進程。根據IDC《數據時代2025》白皮書預測,中國數據量預計在將來7年將每一年平均增加30%,位居世界第一,隨之而來的就是對於數據存儲、匯聚、分析愈來愈多的需求。

其次,在經歷了多年的「企業上雲」以後,各行各業對於雲計算的認知和承認已經造成,在企業加速上雲這個過程當中,數據湖做爲與雲計算自然緊密聯繫在一塊兒的應用,其實已經具有了很是好的基礎設施環境,用戶在上雲以後逐步採用數據湖服務也是順勢而爲。

再次,中國市場在5G、人工智能、物聯網等領域的步伐快速,尤爲是5G商用所帶來的雲計算、通訊、大數據、人工智能等多項技術走向融合,將來在各個行業中會催生出更多新的現代化數據應用場景,數據湖在這個過程當中將會起到重要的支撐做用。

數據湖十年風雨路,AWS緣何脫穎而出

AWS在數據湖領域深厚的積累有助於推進中國數據湖應用落地

據悉,針對中國市場,AWS近期在中國兩個區域陸續上線了多款重磅級的新產品與新服務,其中就包括AWS Glue和Amazon Athena兩款跟數據湖相關的服務。張俠透露:「AWS中國以後會陸續上線數據湖相關的產品與服務。隨着愈來愈多服務落地中國,中國區用戶能夠在短短几天以內完成數據湖的創建工做。」

例如,AWS Glue是數據湖應用中一款很是重要的服務,它能夠幫助用戶創建起無服務器架構的數據目錄和ETL服務,自動發現數據並存儲Schema,與AWS上運行的Aurora、RDS、Redshift、S3和數據庫引擎自然集成,這將給用戶在使用數據湖帶來巨大好處。舉個例子,用戶以前想將數據導入Redshift雲數據倉庫,以前須要本身寫ETL管道,很是不方便,現在有了AWS Glue可以快速完成數據的抽取、轉換和加載。

「中國市場的確是到了該好好研究與使用數據湖的階段了,尤爲是5G、邊緣計算應用上來以後,在數據層面更應該匹配走數據湖這條路。」張俠最後表示道。

整體而言,數據湖一晃已經走過了十年,從一個概念逐步走向落地。在這十年中,以AWS爲表明雲服務提供商們真是洞悉了用戶在數據湖上的需求,而且圍繞數據湖打造出來的一系列全面的產品體系,使得數據湖真正走出了一條價值之路。

十年意味着一個階段的結束,也預示着下一個階段的開啓。數據湖在將來會有更大的舞臺。

相關文章
相關標籤/搜索