從關係型數據庫到分佈式機器學習,揭祕騰訊大數據十年發展歷程

大數據技術在過去10多年中極大改變了企業對數據的存儲、處理和分析方式。現在,大數據技術逐漸成熟,涵蓋了計算、存儲、數倉、數據集成、可視化、NOSQL、OLAP分析、機器學習等豐富領域。在將來,大數據技術還會往引擎容器化、大數據機器學習、數據湖等方面不斷延伸。算法

近日,騰訊大數據技術沙龍首站——Angel專場在深圳舉辦,騰訊大數據團隊詳細披露了騰訊大數據十年發展歷程,並全面展現了騰訊第三代全棧機器學習平臺Angel在大模型數據訓練、深度學習、圖計算等方面的技術能力,也深刻分享了在微信支付、效果廣告、微衆銀行等場景上的應用案例。數據庫

會上,騰訊大數據負責人劉煜宏正式發佈了「星火計劃」,他表示:「在騰訊大數據十年的發展歷程中, 咱們不斷追求技術創新, 集羣數從30臺到突破35000臺。2016年,咱們打破了計算奧運會之稱的Sort Benchmark 4項世界紀錄,性能全球領先。騰訊大數據的發展從開源中受益,秉承着開放共享的精神, 今天咱們也推出技術共享的‘星火計劃’,但願可以助力和反哺大數據生態繁榮。」微信

騰訊大數據發展「三部曲」

做爲大數據領域的前沿探索者,騰訊大數據從2009年開始,經歷離線計算、實時計算與機器學習三個階段,在實踐中積累了大量的經驗。markdown

據劉煜宏介紹,2009年以前,騰訊主要使用傳統的關係型數據庫。2009年開始,傳統的單機數據庫所提供的服務,在系統可擴展性、性價比方面已再也不適用騰訊業務爆發式的增加。面對這種變化,騰訊大數據轉向分佈式,基於開源的Hadoop體系,構建了騰訊第一代大數據平臺,並建設離線計算平臺,主要發力規模化。騰訊大數據由此進入第一階段。三年裏,騰訊實現了從關係型數據庫到自建大數據平臺的全面遷移,到2012年,騰訊大數據的單集羣規模突破了4400臺。網絡

2012年,移動互聯網爆發,應對業務數據統計及時性、快速性的需求,騰訊大數據從Hadoop轉向Spark和Storm體系,在吸取開源技術的基礎上,結合騰訊自身的需求進行重寫,探索流式計算、秒級採集系統的建設,構建企業級的實時數據分析體系,騰訊大數據發展進入第二階段。機器學習

2015年至今,騰訊大數據邁入了第三階段。隨着數據挖掘、數據應用的深刻,騰訊大數據再次自我迭代,於2016年推出了自研機器學習平臺Angel,專攻複雜計算場景,可進行大規模的數據訓練,支撐內容推薦、廣告推薦等AI應用場景。它由騰訊與北京大學聯合研發,兼顧了工業界的高可用性和學術界的創新性。不只支撐騰訊自身業務需求,在行業上也具備里程碑意義。分佈式

從海量業務中來,專一圖計算場景

做爲面向機器學習的第三代高性能計算平臺,騰訊Angel在稀疏數據高維模型的訓練上具備獨特優點,擅長推薦模型和圖網絡模型相關領域。當前業界主流的大規模圖計算系統主要有Facebook的Big Graph、Power graph、Data bricks的 Spark GraphX等,但這些系統並不都支持圖挖掘、圖表示學習、圖神經網絡的三大類型算法。oop

據騰訊Angel開發負責人肖品介紹,騰訊Angel從騰訊海量業務場景中而來,是超大樣本和超高維度的機器學習平臺。從性能上來看,Angel優於現有圖計算系統,可以支持十億級節點、千億級邊的傳統圖挖掘算法,百億邊的圖神經網絡算法需求。它可運行於多任務集羣以及公有云環境,具有高效容錯恢復機制,也更容易支持新算法,同時,Angel可以較好支持圖挖掘、圖表示、圖神經網絡算法,具有圖學習的能力。性能

現在,Angel已在QQ、微信支付、騰訊廣告、騰訊視頻等騰訊旗下產品中普遍應用,並向微衆銀行等行業合做夥伴全面開放,廣泛適用於智能推薦、金融風險評估等圖計算業務場景。學習

到開源中去,積極貢獻社區

發佈僅一年時間,2017年,騰訊Angel就正式開源。2018年8月,騰訊將Angel捐贈給Linux旗下專一人工智能的LF AI基金會,結合基金會成熟的運營,全面升級的 Angel與國際開源社區深刻互動,致力於讓機器學習技術更易於上手研究及應用。

「Angel在2018年加入LF AI基金會進行孵化後,一直按照開源社區的模式進行運營,增加速度很是快,增長了特徵工程、自動機器學習等不少新的功能,在Github上增長了超過2000個Star。」 Linux Foundation APAC大中華區總監楊軒表示: 「Angel是LF AI基金會下最活躍的項目之一,相信不久的未來,Angel將進入LF AI的頂級項目之列。」

目前,Angel在GitHub上Star數已超過5300,Fork數超過1300,總共有39位代碼貢獻者,提交了超過2336個commit。

面向將來,大數據、AI和雲的深度融合

騰訊Angel在深度學習和圖計算能力的演變,也與大數據的行業發展方向相契合。據劉煜宏介紹,將來,騰訊大數據將持續發力數據湖、批流統一(批量計算、流線計算的融合)、AI+大數據、雲計算+大數據四個主要方向。

劉煜宏表示:「AI、雲計算與大數據密不可分,Angel從大數據平臺到全棧機器學習平臺的成長,也驗證了這一行業方向。將來咱們將把騰訊大數據的能力和技術,與AI、與雲作深度融合,進一步落地大數據的價值,更好的助力合做夥伴和用戶。」 據瞭解,騰訊大數據星火計劃是由騰訊發起、面向大數據愛好者的技術共享體系,基於騰訊大數據10年研發與運營經驗,以社區開源、網絡課程、線下沙龍、技術峯會等多種形式,充分開放騰訊十多年來在大數據領域的技術積累。本次Angel專場是星火計劃的首次線下活動。

相關文章
相關標籤/搜索