摘要:敏捷大數據智能化的主要目標就是,結合敏捷大數據實施理念,研發靈活的、輕量化的智能模型,並在敏捷大數據平臺上對數據流進行實時智能化處理,最終實現一站式的大數據智能分析實踐。算法
人工智能的誕生能夠追溯到上世紀50年代,在達特茅斯會議上,麥卡錫提出了AI的概念,但在初期的熱度事後,人工智能的發展經歷了屢次低谷,直到從90年代中末期開始至今的這近二十年的時間裏,人工智能才真正迎來了黃金時期。尤爲是在近10年來,各方面因素都推進其不斷髮展:理論上,機器學習,尤爲是統計學習和神經網絡理論不斷突破,效果顯著;外部環境上,軟硬件技術的進步爲人工智能模型的實現提供了足夠的計算能力;此外,極爲重要的一個因素就是在數據方面,大數據技術的發展令人工智能終於擺脫了數據的桎梏,能夠在充足的樣本基礎上提高模型的能力。能夠說,如今各領域智能模型的研發絕大多數都離不開大數據技術的支持。網絡
反過來看,人工智能對大數據技術一樣有着極爲重要的做用。架構
因此在今天咱們談起大數據的利用,都不可避免地涉及到人工智能、機器學習等概念。機器學習
敏捷大數據平臺棧做爲一個實時數據基礎設施平臺,是對大數據理論與技術進一步發展的成果,天然也會有對智能化方面的研究與佈局。敏捷大數據智能化的主要目標就是,結合敏捷大數據實施理念,研發靈活的、輕量化的智能模型,並在敏捷大數據平臺上對數據流進行實時智能化處理,最終實現一站式的大數據智能分析實踐。佈局
爲實現上述目標,咱們對人工智能、機器學習、實時運算等技術,以及相關業務領域知識,乃至產品用戶體驗都進行了深刻的研究與分析,本系列文章將把咱們的理念和在上述過程當中所得到的一些經驗、成果與你們分享。性能
隨着技術的發展,咱們可以得到史無前例的海量數據,若是可以快速、高效地對這些數據進行處理,發現其中的高價值信息,無疑能夠極大提高企業的應變能力,從而在複雜且易變的業務場景中迅速地作出戰術乃至戰略上的調整。所以,實時數據處理已成爲將來大數據技術發展的主要方向。數據處理的實時化必然會對與數據緊密相關的智能分析模型形成影響,能夠說,爲了快速識別、適應外部環境的變化狀況,各組織已經開始將數據實時處理能力與AI能力相結合,實現智能數據分析業務的快速交付。學習
實際上,針對實時數據流的智能化處理技術已經在不少行業中獲得了先驗。例如在互聯網直播領域,基於視頻流的實時濾鏡、實時特效算法已經在快手、抖音等衆多APP中廣泛使用,而國外的Twitch等直播網站,也推出了實時遊戲數據分析等AI插件來加強直播效果;在體育數據領域,基於實時賽況的球隊、球員數據統計分析和賽況走勢預測也在各體育數據提供商處,如Opta Sports等,獲得了應用;在交通領域,基於實時交通訊息的路況擁堵預測系統也已經開始實施。此類例子不一而足,但都反映了實時AI數據處理已經在不一樣領域、不一樣業務場景下獲得了普遍應用,而且發揮了不可取代的做用。測試
在金融領域的許多場景中,對於實時AI數據處理一樣存在有衆多需求,如實時風控、實時數據預測、實時異常檢測、實時用戶分析等等。下圖爲實時產品推薦的一個數據流圖,能夠用於金融產品推薦場景中,例如網貸、保險、基金、股票等產品。大數據
該圖描述了以下過程:在交互端咱們能夠經過埋點得到大量的、不一樣用戶的行爲數據,這些數據將被企業實時數據平臺採集,與用戶、產品及其餘數據一塊兒提供給計算層的各種模型,如用戶興趣模型、產品畫像模型等。這些模型對用戶和產品進行特徵刻畫,最終提供給推薦模型計算、排序、過濾獲得最終的推薦列表。這一過程當中咱們能夠根據採集到的實時用戶行爲數據流對用戶興趣模型進行更新和校訂,從而實現對用戶所感興趣內容的實時追蹤。網站
上圖沒有體現的一個過程是對產品畫像模型的實時更新,儘管相對用戶的行爲數據而言,產品的特徵數據相對穩定,但在實際當中仍是有很多產品對時效性要求很高,其畫像特徵也須要咱們進行實時的維護,例如證券市場的數據信息等。這些產品數據流能夠經過其餘渠道彙總進入企業實時數據平臺之中,並提供給產品畫像模型進行產品特徵的重構,最終提供給推薦模型進行產品推薦。一個好的實時產品推薦系統能夠靈敏捕捉用戶的需求、響應產品的變化,能夠高效地針對用戶開展個性化精準營銷,提高用戶體驗度的同時還可以提升獲客和關單數量,產生巨大的業務價值。
在上圖中企業實時數據平臺扮演了爲推薦模型提供實時數據的重要任務。在一個敏捷的數據環境中,敏捷大數據就平臺能夠很好地支持上述工做,一種實現架構以下圖所示:
在該圖中,dbus和wormhole能夠方便對接多種不一樣數據源,實時獲取數據,將數據pipeline源頭實時化。另外wormhole支持流上處理,很適合接入產品畫像模型和用戶興趣模型對產品與用戶的特徵進行實時刻畫,這些特徵通過存儲後由moonbox根據須要進行抽取,輸入推薦模型獲得須要的推薦列表,最終返回給交互端。此外,若是加上davinci數據BI的支持,咱們還能夠輕鬆地實現實時業務指標監控,便於咱們對推薦效果進行評估。整個過程靈活、便捷地整合了多種不一樣開源平臺以快速搭建實時數據應用,還能夠根據須要隨時切換開源選型,支持快速迭代試錯,結合已有的算法模型就可以迅速支持實現智能用戶產品實時推薦這一場景。
如前文所述,在實時AI數據處理過程當中,基於敏捷大數據的各項業務組件,結合第三方的開源構件,經過簡單配置便可快速編排、敏捷地實現算法運行的底層支持架構。這使得整個系統中看起來惟一的麻煩之處在於咱們還要事先開發好各類智能模型,這對於一些業務組織來講仍是有必定的技術門檻;此外對於某些業務來講,快速推動和成本控制纔是首要考慮的因素,那麼針對性地定製化開發智能算法模型,並調整調用接口使之能夠接入實時數據架構之中,就顯得比較笨拙。例如不少數據分析的業務人員,也許不須要太過精準的模型性能,但最好可以保證分析系統實施的便捷性、業務邏輯實現的迅捷性。
咱們已經讓數據處理變得敏捷,那麼如何將數據智能也變得更加敏捷呢?爲了解決這一問題,咱們提出了敏捷AI的實施思路,即在現有敏捷大數據產品的基礎之上,基於業務場景設計開發一系列可插拔的實時智能模型算子,這些模型涵蓋了業務場景內常見的智能化數據分析需求,具備較強的通用性和複用性,可以無縫接入敏捷大數據平臺上的實時數據流並向平臺輸出分析結果,根據須要實時流入各業務端,最終實現基於實時數據流的智能分析過程。在敏捷大數據產品和敏捷AI的支持下,業務人員能夠根據業務場景快速構建從實時數據處理平臺到實時數據智能分析,再到實時數據展現的整個智能化數據治理流程,並可根據效果靈活調整試錯,極大下降實時智能化業務分析的實施成本。
在上述敏捷AI的實施思路下,咱們着手構建敏捷AI算法庫,這是一套基於業務領域劃分的輕量級通用數據模型集合。其中的每一個模型的設計應該遵循如下原則:
爲了實現上述要求,咱們在研發模型時將不可避免地在某些方面作出一些取捨,例如模型若想通用必將會致使性能的必定程度降低,如何在這些矛盾中尋求一個合理的折中,也是在設計時須要考慮的問題。目前,咱們已經針對一些領域開始研發敏捷AI模型,通過實際測試與應用後,不久的未來就將整合進如今的敏捷大數據產品棧中。此外,在將來咱們還能夠公佈相關接口和規約,讓用戶也有能力將本身的模型加入到庫中。
實時數據的智能化分析是將來大數據技術和人工智能技術發展的重要方向之一,如何下降這一實施過程的經濟成本、時間成本、技術成本以及變動成本,是敏捷大數據和敏捷AI着重解決的關鍵問題。本文結合敏捷大數據產品提出了一種解決思路,但願咱們的產品可以幫助各組織方便、快速、靈活地構建本身的實時大數據智能分析系統。來源:宜信技術學院
做者:井玉欣