基於實時計算Flink的機器學習算法平臺及場景介紹

做者:高暘(吾與),阿里巴巴高級技術專家算法

1. 前言

隨着互聯網「人口紅利」的「消耗殆盡」,基於「T+1」或者離線計算的機器學習平臺及推薦系統轉化率與效果日趨「平淡」。後疫情時代的新社會模式及經濟形態必將催生出新的商業模式,在線業務及相關應用場景的流量呈現井噴式發展,常規的離線系統及離線機器學習平臺已沒法知足業務發展要求。人口紅利吃盡以後,基於大數據及AI平臺的業務系統在時間維度上的思考將變得相當重要,經過業務系統實時化向時間要價值已經成爲主流趨勢。基於流式計算引擎的在線機器學習平臺將愈來愈被重視, 經過增量模型的準實時或實時推薦系統更能「因時而異」 充分捕捉目標用戶瞬息萬變的需求,從而進行精準推薦和變現。實時推薦系統也從最先的電商場景, 擴展到社交場景, 在線教育場景, 遊戲場景及更廣闊的在線場景。安全

本文介紹重點介紹基於阿里雲大數據及AI產品家族的實時計算Flink及PAI Alink機器學習算法平臺,以及該產品組合在實時推薦場景(適用於電商、遊戲及在線教育解決方案)、實時評分卡場景(適用於金融、安全及營銷風控解決方案)以及異常檢測場景(適用於工業領域及其餘產業互聯網領域)的場景應用。網絡

2. 實時計算引擎及機器學習算法平臺介紹

2.1 阿里雲實時計算Flink

阿里雲實時計算Flink做爲Apache Flink創始團隊的商業化產品,從極致(較傳統微批模式)的實時數據處理維度,爲企業大數據處理及業務實時化提供了可能。商業化的統一開發及管控平臺,成熟、準標準化的SQL及元數據管理能力,讓業務人員及數據分析師大幅度提高開發效率, SQL配合UDF基本能夠解決80%+的業務場景。企業級的State Backend – Gemini大幅度提高IO效率,總體執行引擎較開源3倍以上的性能提高。less

VVP.png

基於阿里雲Kubernetes的全新Serverless全託管雲上實時計算Flink服務,使用全新的硬多租技術方案,基於VPC提供網絡層隔離,阿里雲安全容器提供計算層隔離,基於彈性雲盤提供存儲級隔離,經過用戶級Master及超級Master實現極致資源彈性下的多租戶隔離。基於負載的細粒度彈性伸縮, 充分提升資源使用率, 下降總體TCO。新一代的Serverless實時計算Flink產品爲在線機器學習算法平臺提供了堅實(「時「)的基礎。機器學習

2.png

2.2 阿里雲PAI Alink機器學習算法平臺

3.png

與SparkML算法相比,Alink算法更全面,性能更優異,場景更豐富(同時支持流批),本地化更出色(支持中文分詞)是快速搭建在線機器學習系統的不二之選。性能

4.png

3. 基於實時計算Flink-機器學習場景介紹:

3.1實時推薦場景:

從根據用戶點擊和瀏覽的內容實時推送的電商場景,到社交媒體根據用戶閱讀的內容實時「喂送「的實時推薦系統,再到遊戲推送平臺根據用戶行爲實時推送的遊戲系統,實時推薦系統儼然已經成爲了在線業務系統的核心。學習

5.png

阿里雲PAI Alink算法平臺提供: 召回(例如:ALS、FM、Deep Walk等),特徵編碼(OneHot、MultiHot及GBDT等) ,排序(LR及FFM等)以及Online算法(OnlineFM及Ftrl)流式和批式的算法能力全流程構建能力。配合阿里雲實時計算Flink海量樣本實時拼接能力,可以快速端到端實現離在線一體化的推薦系統。大數據

6.png

經過特徵工程批式訓練初始化模型,經過實時樣本拼接配合流式算法(OnlineFM及Ftrl) 生成增量的模型,最終提供統一模型的總體結果預測,更實時更動態的提高推薦效果。阿里雲

7.png

3.2 評分卡場景介紹:

阿里雲實時計算Flink及PAI Alink產品組合能夠幫助客戶快速搭建實時金融風控解決方案。評分卡在金融場景有普遍的應用,可否構建準確的評分卡模型關係到可否安全的開展支付、貸款、保險、理財、信用等業務,評分卡常被用於信用評估領域,好比信用卡風險評估,貸款發放;評分卡也會用來做爲分數評估,好比客戶質量打分,信用分。涉及金融的場景都須要:可追溯、可審計及可解釋,以下的評分卡模型就具有很好的可解釋性。例如:用戶年齡27歲,性別男,婚姻情況已婚,學歷本科,月收入10000。根據以下評分卡,該用戶的評分爲:評分 = 223(基準分) + 8(年齡) + 4(性別評分)+ 8(婚姻情況)+ 8(學歷評分)+ 13(月收入評分)= 264分。編碼

8.png

阿里雲實時計算Flink及PAI Alink產品組合提供最早進的評分卡解決方案, 分箱將每一個特徵按照需求進行分箱訓練;評分卡訓練生成評分模型;樣本穩定性經過PSI等指標衡量樣本穩定性;模型評估,評估二分類模型效果。該解決方案支持多特徵維度模型訓練,支持大規模樣本建模。

9.png

3.3 異常檢測場景

異常檢測及時序分析是一個較爲常見而且應用普遍的場景,在工業界的應用尤甚。利用阿里雲實時計算Flink及PAI Alink產品組合能夠幫助客戶快速搭建異常檢測解決方案。實時計算Flink強大的性能與Alink豐富的算法庫機相結合,能夠幫助數據分析和應用開發人員實現數據處理、特徵工程、模型訓練、預測等多個環節端到端的處理。在異常檢測場景下,Alink支持時間序列異常檢測、異常集檢測兩個核心場景。

在時間序列異常檢測中,Alink具有種類齊全、批流一體、性能優異、並行計算、使用方便等優點。針對不一樣的使用場景,分爲基於時序預測和時序分解兩種類型:

  • 時序預測算法適合流式數據,即時響應
  • 時序分解算法適合全量數據,可以從全量數據中挖掘有效信息。

Alink也提供了時序預測和時序分解算法,用戶能夠單獨使用。

10.png

異常集檢測是風控場景的核心訴求之一。Alink 異常集檢測中具有以下優點:

  • 巨型圖支持 - 支持上億邊的圖數據
  • 在線更新 - 隨時加上異常種子都可局部異常檢測
  • 快速運算 - 只對局部圖進行運算,節約計算資源

在盜用、欺詐、做弊、商戶、借貸套現等各風險域都有異常集檢測的需求存在。基於GraphRAD,Alink實現了半監督的異常集檢測,RiskCommunityDetector。算法輸入鏈接關係以及已知的黑點,便可對全圖進行分析,捕獲其它黑用戶,下降業務運行過程當中的風險,爲業務安全保駕護航,避免可能發生的重大損失。

11.png

4. 後記

經過上文的介紹,想必你們已經對阿里雲實時計算Flink及PAI產品組合躍躍欲試了,能夠快速開通全託管實時計算Flink 體驗最新的Serverless產品服務。實時計算Flink觸達直通車:https://www.aliyun.com/product/bigdata/sc

12.png

經過開通阿里雲E-MapReduce Dataflow集羣,快速搭建基於阿里雲實時計算Flink的PAI Alink算法平臺。PAI Alink觸達直通車:https://www.aliyun.com/product/emapreduce

13.png

原文連接 本文爲阿里雲原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索