開源 SQLFlow,反哺業界,同時小小秀出 AI 肌肉。數據庫
這就是螞蟻金服近日開源首個將 SQL 應用於 AI 引擎項目 SQLFlow 後,業界給出的反應。安全
SQLFlow,把艱深的 AI 與簡單的 SQL 結合起來,大大簡化了數據工程師使用 AI 技術的門檻。架構
而研發出 SQLFlow 的,正是螞蟻金服計算存儲首席架構師何昌華帶領下的 AI Infra 團隊。機器學習
何昌華斯坦福博士畢業,先在 Google 總部工做 7 年,贏得過公司最高技術獎項,其後又在獨角獸 Airbnb 工做 2 年,負責後臺系統的應用架構。學習
2017 年 5 月,他正式加盟螞蟻金服,擔任計算存儲首席架構師,並在 2018 年入選了第 14 批國家「千人計劃」專家。大數據
在螞蟻金服,何昌華的工做是開發新一代計算引擎,搭建金融型數據智能平臺。搜索引擎
而 SQLFlow,就是計算引擎主線上的結晶之一。人工智能
不過對何昌華來講,世界正在鉅變,他還要帶隊探索一些沒人作成的事情。spa
好比全實時的大數據智能系統。blog
大數據的概念,最先來自於搜索引擎行業,由於搜索引擎面對的是人類在互聯網上留下的爆炸性增加的龐大數據。
2010 年末,谷歌宣佈新一代搜索引擎「咖啡因」正式上線,這項技術的革命性在於,任什麼時候刻,世界上的任何網頁發生了變化,均可以實時地添加到索引中,用戶也能夠實時地搜索到,解決了傳統搜索引擎的延時問題。
何昌華當時正是咖啡因開發團隊的核心技術負責人之一。
他解釋,「咖啡因所實現的最核心的功能,就是實時。」
而如今何昌華在螞蟻金服工做的目標,一樣是搭建一個「徹底實時」的大數據處理系統,或稱之爲大數據智能平臺。因爲線下生活場景的多樣性和複雜性,這是個比構建實時搜索更有挑戰性的任務。
他認爲,這將成爲將來技術的基石。
對於計算機來講,實時就是在發出請求到返回響應之間的延遲儘可能小,對於大數據處理系統來講,這還意味着從數據生產到消費的延遲儘量低,全部這些都意味着計算速度和能力的提高。
此前經常使用的大數據計算模型 MapReduce,對數據的處理是「分片式」的,數據的片與片之間有邊界的概念,這種批處理的模式不可避免地會帶來延時問題。
以搜索的場景爲例,假如以天爲時間單位對數據進行批處理,那就意味着今天更新的網頁,用戶明天才能搜索到,調高處理的頻率能夠部分解決問題,一天兩次、一天四次、兩小時一次……
雖然能逐步接近「準實時」,但成本也會急劇上升。
要實現真正的實時,就必須打破這種批處理的邊界,讓數據處理的過程像水流同樣,隨來隨算,隨時反饋。
這也催生了後來流式計算引擎的蓬勃發展。
而在何昌華看來,除了快,「實時系統」還有兩層重要含義。
第一是 OLTP(聯機事務處理)和 OLAP(聯機分析處理)的融合。
在以往的觀念裏,OLTP 對實時性的要求高,OLAP 對時效性的要求不那麼高。
舉例而言,用支付寶進行一筆交易,須要即時查詢和增刪記錄,就是由 OLTP 來處理的。而對用戶行爲特徵的數據分析,則由 OLAP 來處理。
但如今隨着業務場景需求的不斷變化,OLAP 的時效性要求也愈來愈高。
例如互聯網金融中的風控場景,就須要在完成一筆交易的極短期中,經過分析用戶的特徵數據判斷風險,這要求 OLAP 也要能實時反饋,且反饋結果立刻就可以在線訪問。
第二是智能和數據系統的融合。
人工智能和機器學習是大數據應用最熱門的領域,而如今絕大多數公司的作法,是將數倉和機器學習平臺分開,從數倉取一批數據,放到機器學習平臺上去訓練模型。
隨着業務場景的複雜化和多樣化,這種模式逐漸顯露問題,由於模型可否實時更新,可否能用更實時的數據來訓練模型,直接影響了應對複雜場景的能力。
「數據實時流入、實時訓練模型,模型實時上線決策並反饋數據——這一條線若是能徹底打通,對於業務將產生不可估量的價值」, 何昌華說。
數據、計算、智能,全部這一切構成了何昌華設想中的「高效率的大數據底盤」,也就是一個融合的實時數據智能平臺,或者叫「Big Data Base」,就像曾經數據庫成爲無數場景的數據底盤同樣。
現在,不只是螞蟻金服或者阿里巴巴集團,在各行各業中,數據驅動的業務都愈來愈多。
但大數據開發的門檻很高,若是每一項業務都從數據開發的底層作起,將會很是耗時耗力。
如何才能讓作業務的人有更多精力專一於業務?
何昌華認爲這就是「Big Data Base」的使命,一樣也是「基石」的含義:
咱們但願讓這件事變得簡單——各行各業的從業人員、各條業務線的同窗,在堅實的平臺基礎上,不須要知道下層的細節,就能夠很方便地開發上層應用。
下降數據和智能的門檻,這是何昌華對於新引擎和數據智能平臺的指望。
目前,他帶領團隊開發的金融型多模融合計算引擎,已經實現了流計算與圖計算、流計算與機器學習的融合打通,距離他設想中的「大融合」愈來愈近了。
何昌華透露團隊目標,就是讓業務變得「極簡」:
將來兩到三年,咱們但願新引擎可以承擔實時在線的融合計算任務。基於這個引擎,結合其餘開源引擎,咱們就可以構建出一整套數據智能系統。在這個數據智能系統上,業務能夠很是輕鬆地完成從功能開發到產品上線的流程,後續的吸引流量、分析決策等也均可以藉助這個平臺來完成。
他甚至勾畫了一幅很科幻的將來場景:你寫一個功能交給引擎,引擎會決定調用多少資源去計算,你無需關心具體的計算過程,結果將會在最短的時間內反饋給你。
當你構想出一種新型業務,數據智能平臺會判斷須要哪些數據,採用哪一種模型,如何上線,如何運營流量。
這些流程,均可以智能化地自動完成。
這是個更長遠的目標。咱們開發出數據處理的能力,將來,任何人均可以使用這種能力,真正實現「數據民主化」。
這樣一個融合多種能力的實時數據智能平臺,目前在世界上尚未哪家公司能徹底研發出來。
何昌華也謹慎而滿懷信心地展望着將來:「咱們也是在探索,若是徹底實現了探索目標,咱們就將真正站到全世界領先的位置。」
世界瞬息萬變,數據做爲物理世界的鏡像,理論上是無窮無盡的,問題只在於人類有沒有辦法去記錄和採集它們。
互聯網和移動互聯網的普及,讓人類的行爲數據採集成本大大下降。
IoT 傳感器設備的普及,讓工業生產和社會生活中的數據也可以大量地沉澱下來。
所以在過去的二十年中,數據總量出現了爆炸性的增加。
在整個世界發生數字化鉅變的同時,咱們的生活也在悄然改變。
基於數據應用的發展,咱們享受到了一二十年以前沒法想象的便捷——電商、O2O、移動支付、智能家居……
但在何昌華看來,數字化還處在很是初級的、在把線下的數據搬到線上的階段。
真正須要思考的問題,是將來當高度數據化的社會到來時,咱們擁有什麼樣的能力去處理和應用海量的數據。
這關係到咱們是否可以基於數據作到更多的事,催生出更高的智能,進而推進人類社會向着下一階段發展。
這就是他回國加入螞蟻金服所要尋找的答案。
之因此回來,是由於以爲在這裏作的事,往大一點說,是面向人類社會發展下一階段的探索。
在這場全新的探索中,和海量的數據打交道是必修課,所以,他反覆強調着計算能力的重要性:大數據、人工智能、深度學習……無不須要強大的計算能力,不然,向前的探索步履維艱。
人工智能的發展趨勢,也是用更大更高更海量的計算,來模擬人的能力。
「真正的人工智能=數據 + 100 倍的計算」,谷歌最新的人工智能模型水平,換算出來至關於數百塊 GPU 持續計算一全年。
何昌華和團隊一塊兒傾力開發的新一代計算引擎和數據智能平臺,其實是高效計算能力和強大數據處理能力的綜合載體。
它自螞蟻金服海量的業務場景和數據之中誕生,初衷是支撐螞蟻金服的各項業務,但隨着技術逐步成熟,它也能夠具有多場景下的通用性。
金融屬性帶來的高可用性和高安全性,讓它能夠普遍用於其餘行業,應對生活服務場景更加不在話下。
這項工做的意義,往大了說,是在推進社會的變革,雖然聽上去是個宏大的命題,但它並不是那麼高高在上。
「每一項技術都必有它的落腳點。具體到螞蟻金服,這些技術跟數億人的平常生活緊密相連。」
每一天,當何昌華本身掏出手機使用支付寶結帳付款時,都能直觀地感覺到本身的工做成果。就像他在谷歌工做時,天天也都會使用搜索功能同樣:「本身作出的成果,本身天天都在使用,很是切實地感受到技術對生活的改變。」
他這樣陳述本身的人生理想。在通往理想的征程中,他既站在技術的最前沿,也身處最爲平常的場景中,這兩者本就密不可分:
用技術改善人的生活,推進社會和人不斷往前進化。
做者:生平栗子
原文連接
本文爲雲棲社區原創內容,未經容許不得轉載。