2018 年 1 月,Oracle 的官方博客上發表了一篇文章,標題是「It's Pervasive:AI Is Everywhere」。做爲全球最著名的商業數據庫系統提供商,Oracle 在這篇文章裏歷數了 AI 在企業信息系統中的發展空間。在面向最終用戶的互聯網行業,巨頭們招募 AI 專家,用 Python 和 C++ 打造服務大衆的特定 AI 能力——搜索、推薦、以及精準定向的互聯網廣告系統。在企業業務中,使用 SQL 的分析師是大多數。git
2019 年 7 月,滴滴的數據科學(Data Science)團隊的幾名數據科學家在北京新澄海大廈見到了來自螞蟻金服的幾位工程師。在那以前兩個月,螞蟻金服從事 AI 基礎架構研發的王益團隊開源了一款機器學習工具 SQLFLow,將 SQL 程序翻譯成 Python 程序,調用數據庫和 AI 引擎,實現端到端的 AI。滴滴首席數據科學家謝梁敏銳地關注到這個項目。此次拜訪雙方一拍即合,開啓了共建 SQLFlow 之旅。github
數據驅動決策是不少公司的追求,在國內不少業務人員都瞭解 SQL,可是對於 AI、深度學習模型的訓練,須要長時間系統性的學習,有必定的門檻。SQLFLow 的出現讓包括數據分析師在內的業務人員經過寫簡單的 SQL 去調用 AI 模型成爲了可能。算法
滴滴數據科學團隊長期地直面一線業務,瞭解業務需求,也沉澱了不少經常使用模型。本次合做雙方但願優點互補共同助力 AI 的落地,據悉合做分爲三步,第一步滴滴爲螞蟻金服貢獻更多針對於業務產品的理解和洞見;第二步滴滴將公司自身業務場景最有價值用的最好的模型貢獻到 SQLFLow;第三步滴滴加入到建設到整個 SQLFLow 開源社區的建設,雙方要在模型、社區、文化等全方位共建。sql
一個多月的時間,滴滴已經爲 SQLFLow 貢獻了基於 DNN 分類預測模型、可解釋模型和無監督聚類模型三個高價值模型。這三個模型覆蓋的場景很是普遍,對於滴滴內部來講,包括網約車、單車、金融等在內的諸多業務場景均可應用起來,於外部而言,「由於整個模型它是一種基礎能力,其實它不會侷限於某一個公司或某一個行業,它具備普適性。」滴滴高級數據科學家高梓堯強調。docker
好比分類預測模型,適用於作產品增加的場景,對特定人羣進行定向推薦。而無監督聚類模型,也就是模式識別,在滴滴的產品的應用很是廣,好比會根據司機出車時長分佈,去整合概括司機出車的偏好,更好地爲司機提供調度建議,進而幫助緩解出行供需。數據庫
滴滴首席數據科學家謝梁認爲在共建 SQLFlow 過程當中,充分體現了算法和數據科學在對數據的理解和應用上的兩個不一樣,以及雙方優點互補造成 1+1 大於 2 的協力效果。由於對於傳統的算法來說主要強調對於預測一個給定事件的預測精準性。可是數據科學在預測精準性之上,還強調預測的可解釋性。實際上在更普遍的商業層面上,好比運營、營銷等更須要了解爲何會這這樣發生,這對於業務戰略制定、營銷方案的肯定,以及整個產品序列的設計都有很是大的幫助。架構
滴滴數據科學團隊在過去不到兩個月的共建工做中顯著擴大了 SQLFlow 的應用場景。根據螞蟻金服 SQLFlow 項目的產品負責人劉勇峯介紹,滴滴的同事們建議而且參與研發了 SQLFlow 對接 XGBoost 的功能,從而在深度學習模型以外支持樹模型;以及對接 unsupervised learning 的能力,支持聚類分析。此外,SQLFlow 基於 SHAP 支持了深度學習模型和樹模型的圖示化解釋。SQLFlow 也支持了滴滴經常使用的 Hive 數據庫系統。機器學習
(注:SHAP 值表徵了每一個特徵對模型輸出的影響,如圖中,較小的 engine_hp「引擎馬力」值會下降汽車的預測價格)工具
「咱們是但願經過 SQLFlow 真正可以把數據驅動業務、科學決策的思想,可以在中國傳播得更好更遠,也但願就是可以經過咱們本身的努力,真正讓 AI 模型能力大衆化和普及化,而後使得咱們整個國內的數據分析的科學性、合理性和洞察性,可以逐步提高,甚至達到國際領先。」高梓堯說。學習
而全部參與項目的同事們對 SQLFlow 的將來都有更大的期待,這是對於開源社區做爲一種高效率的工做模式的信任。
在強調數據驅動的滴滴其實一直積極參與到開源建設中,截至目前,滴滴和螞蟻金服分別開源了數十個項目。SQLFlow 是雙方開源共建的首秀。
對於雙方僅一個多月的時間就可以共建三個高價值的模型,謝梁認爲很重要的緣由是 SQLFlow 已經給滴滴搭建好了底層能力,滴滴至關於作了一個交通領域的幾個核心插件,而且經過滴滴插件能力,對整個 SQLFlow 覆蓋面和深度方面的底層能力進行了驗證和提高,「那麼再把這個基礎打好以後,咱們就至關於造了一個大的花園,咱們把土都鋪好了,須要什麼養分的土,要種什麼類型的花,都給他作好了,以後就須要有更多的農民伯伯一塊兒來種田,他們要去種向日葵,咱們畢竟精力有限可能就是以種小麥和種主糧爲主,更多的經濟做物就須要其餘開源社區的同窗一塊兒來貢獻。」
在整個 SQLFlow 開源社區建設方面雙方都有更大的願景,滴滴的分析團隊總結的不少模型在 BI 領域具有普適性,而 SQLFlow 在螞蟻的場景使用模型在金融領域很有普適性,將來要讓更多的人去用上普適的 AI 能力,在 SQLFlow 社區之上會造成一個開源貨架式的交易市場,更多懂業務的人把更多商業場景抽象成模型打形成模型庫,模型庫是 SQLFlow 生態中的重要一環,雙方正在討論如何共建。「你就像走進一個超市,裏面有 10萬個 SQL,每個 SQL 就是一個實現了你商業邏輯的模型,你就拿來用就好了,這是終極的一個目標」,謝梁興奮地談到。
固然如今的 SQLFlow 仍是一個很是年輕的開源項目,須要更多的呵護。雖然目前在開源合做方面中國相比美國還有很多差距,但正是由於愈來愈多的公司和我的去投身其中爲之貢獻,差距正在縮小。
實際上,幾乎全部的 SQLFlow 項目成員都是利用業餘時間參與到開源項目中。好比滴滴資深算法工程師陳祥,他平時負責數據治理和應用方向上數據、應用與算法的結合和落地, 在 8 月初聽到 SQLFlow 項目就決定參與進來,將來他也會號召不少的人蔘與到開源建設中。
「開源社區所說的構建大生態,其實大生態還包含着另一層,就是你們互相學習,而後行業內的全部從業人員進行知識交流。因此當各行各業的同窗都在裏面貢獻本身的經驗、技能時,咱們其實也能從其餘的同窗那學習到不少處理數據,或者解決實際問題的方法。」高梓堯所言恰如其分地詮釋了開源社區衆人拾柴火焰高的魅力。
Gartner 預測「到 2020 年,AI 技術將廣泛出如今幾乎每個新的軟件產品和服務中。」這其中有螞蟻金服與滴滴 DS 團隊的一份力。
歡迎感興趣的同窗加入社區討論:
項目官網:https://sqlflow.org
GitHub地址:https://github.com/sql-machine-learning/sqlflow
您也可使用docker,運行文章中的汽車價格預測模型:docker run -p 8888:8888sqlflow/sqlflow:didi
本文爲雲棲社區原創內容,未經容許不得轉載。