咱們最早落地的業務是在用戶增加上,閒魚的用戶增加業務有以下描述:算法
在年初時,咱們在用戶增加下作了多個實驗,其中兩個實驗以下:編程
之因此會作以上實驗,主要仍是但願用戶能在APP上多停留一會。當用戶瀏覽時間越長,就越有可能發現閒魚上還有不少有趣的內容,不管是商品寶貝仍是魚塘內的帖子。從而達到吸引用戶下一次還能再回來的目的,最終帶來用戶增加。咱們作的實驗上線後大部分都取得了不錯的業務效果,可是在過程當中也暴露了兩個問題:安全
針對上述問題,咱們先作了一層業務抽象。運營先經過對用戶的各類行爲進行一個分析和歸類,得出一個共同的具體的規則,再將這個規則實時地做用到用戶身上進行干預。網絡
針對這層業務抽象,咱們再作了工程化,目的就是爲了提高研發效率和運營效率。這樣就有了第一個方案——基於事件流的規則引擎,咱們認爲用戶的行爲是一串順序的行爲事件流,使用一段簡單的事件描述DSL,再結合輸入和輸出的定義,就能夠完整地定義一個規則。架構
以上述用戶增加的第二個實驗爲例,以下圖所示的DSL便可簡單表達出來:編程語言
該規則引擎能夠很好地解決以前用戶增加業務下的幾個策略,隨後咱們進行了內部推廣,準備在閒魚C2C安全業務下也落地。在C2C安全業務上有以下描述:工具
在C2C安全業務上,也有一個看似是一個針對一系列行爲做出的規則抽象,以下圖所示:性能
可是將上述規則套上規則引擎後,就會發現沒法將安全的規則套上規則引擎。假設咱們的詳細規則是1分鐘內被拉黑2次,就對該用戶打上高危標記。那麼咱們想想,當來了第一個拉黑事件後,匹配上了。而後緊接着來了第二個拉黑事件,也匹配上了。此時按照規則引擎的視角,條件已經知足了,能夠進行下一步操做了。可是再仔細看一看規則,咱們的規則是要被不一樣的用戶拉黑,由於有多是同一個用戶操做了屢次拉黑(同時多開設備)。而規則引擎上只知道匹配到了2次拉黑事件,對規則引擎來講已經知足了。卻沒法知道是不是不一樣人操做的。起根本緣由是由於在規則引擎裏,事件都是無狀態的,沒法回溯去作聚合計算。優化
針對規則引擎的侷限性,從新分析和梳理了咱們的實際業務場景。並結合了業界知名的通用的解決方案後,設計出了新的方案,定義了新的DSL。能夠看到,咱們的語法是類SQL的,主要有如下幾個考慮:spa
新的DSL方案與以前的規則引擎相比主要有如下幾個加強:
針對以前的C2C業務上的規則描述問題,使用新方案的例子以下:
基於這套用EPL(Event Programming Language)寫出的DSL,爲了作好工程化,咱們作了以下的總體分層架構。爲了快速實現最小閉環驗證效果,咱們選擇先基於Blink(Blink是阿里對Flink的內部優化和升級)作雲上的解析和計算引擎。
在這個分層架構裏,至上而下分別是:
經過切面的方式攔截全部的網絡請求和行爲打點,再記錄到服務端日誌流裏。同時經過一個事實任務對事件流進行清洗,按前面定義的格式清洗出咱們想要的事件。再將清洗後的日誌輸出到另外一個日誌流裏,供EPL引擎來讀取。
因爲咱們採起了類SQL語法,而Calcite是業界通用的解析SQL的工具,所以咱們採用Calcite並經過自定義其中的parser來解析。若是是單一事件的DSL,則會解析成Flink SQL。若是是多事件的DSL,則會解析後經過直接調用Blink的API接口的方式來實現。
當EPL引擎計算出結果以後,會輸出給用戶觸達模塊。首先會進行一個Action路由,最終決策出須要由具體哪個Action來響應,最後經過與客戶端之間的長鏈接將Action下發到端上。端上收到具體的Action後,會先判斷當前用戶的行爲是否容許展現該Action。若是能夠的話,就直接執行Action的具體內容,曝光給用戶。用戶看到此次響應後會有相應的行爲,那麼這部分的行爲會影響到Action路由,對此次的路由的作出一個反饋。
新方案上線後,咱們就在愈來愈多的業務場景裏進行了落地。這裏列舉2個例子:
在上述魚塘的例子裏,能夠看出來,咱們這套方案已經有了一點算法推薦的影子了。在上述租房的例子裏,因爲規則過於複雜,用DSL表達起來很麻煩,因此就作成只採集4次瀏覽不一樣租房寶貝的規則,即觸發後,就將這裏的數據都給到租房的具體開發的業務方,這也是咱們在落地過程當中摸到的邊界。
使用這一套完整方案,研發效率上有了很大的提高。原先經過寫代碼case by case的方式通常要4個工做日完成整個研發流程,極端狀況下須要跟客戶端版本則須要2-3周的時間。如今經過寫SQL的方式通常要0.5個工做日便可上線。此外,這套方案還有以下幾個優點:
經過在多個業務的落地實踐,咱們也摸索出來這套方案的適用邊界:
當前整套方案還有以下幾個問題:
所以綜上,咱們將來的規劃將會聚焦於端側實時計算能力的挖掘和算法能力的結合上。
本文做者:閒魚技術-蘭昊
本文爲雲棲社區原創內容,未經容許不得轉載。