推薦系統架構

時間 2019-12-18

原文原文鏈接

數據特徵

數據決定了特徵，特徵決定了效果的上限，模型決定了接近效果上限的程度。

行爲類別	行爲表現
用戶主動行爲	點擊、分享、評分
用戶畫像	用戶屬性（性別、年齡、收入）、視頻分類興趣分佈、地域、時間
負反饋	負評

用戶主動行爲數據記錄了用戶在平臺的的各類行爲，這些行爲一方面用於候選集觸發算法（在下一部分介紹）中的離線計算（主要是瀏覽、下單），另一方面，這些行爲表明的意圖的強弱不一樣，所以在訓練重排序模型時能夠針對不一樣的行爲設定不一樣的迴歸目標值，以更細地刻畫用戶的行爲強弱程度。此外，用戶對deal的這些行爲還能夠做爲重排序模型的交叉特徵，用於模型的離線訓練和在線預測。
負反饋數據反映了當前的結果可能在某些方面不能知足用戶的需求，所以在後續的候選集觸發過程當中須要考慮對特定的因素進行過濾或者降權，下降負面因素再次出現的概率，提升用戶體驗；同時在重排序的模型訓練中，負反饋數據能夠做爲不可多得的負例參與模型訓練，這些負例要比那些展現後未點擊、未下單的樣本顯著的多。
用戶畫像是刻畫用戶屬性的基礎數據，其中有些是直接獲取的原始數據，有些是通過挖掘的二次加工數據，好比用戶的聚類和向量化，這些屬性一方面能夠用於候選集觸發過程當中對deal進行加權或降權，另一方面能夠做爲重排序模型中的用戶維度特徵。

召回層（ReCall）

協同過濾

協同過濾（Collaborative Filtering）可說是推薦系統裏資歷最老最經典的一種算法了，如 userCF、itemCF。原理是基於用戶對內容的行爲協同，爲某一用戶沒有看過的某條內容做出點擊預測。實現方法有不少種，如傳統的 Memory-based 方法、基於矩陣分解的方法（LFM/SVD/SDV++）、基於 DNN 的方法。

Memory-based 方法很簡單，是基於統計的一種算法。以 item-based CF 舉例：

根據用戶點擊行爲，咱們能夠統計出 item-item 的共現矩陣（矩陣單元內爲 item i 與 item j 共同被用戶點擊的次數），再依此經過Jaccard類似度/餘弦類似度/歐氏距離得出 item 類似度矩陣，最後根據用戶的點擊記錄檢索出 topK 類似的內容推薦給用戶。在計算過程當中須要考慮一些因素，好比熱門物品對類似度計算的影響、不一樣傾向的用戶的影響等等。

然而 Memory-based 方法不能解決的問題是，當咱們的矩陣很稀疏時，大多數 item 和 item 之間是沒有關聯的（類似度爲0），這也就形成最後咱們召回的內容覆蓋率很低，也許大多集中在頭部內容。因而基於矩陣分解的方法誕生了。

MF（Matrix Factorization）的原理是將一個高維稀疏矩陣分解成兩個低秩矩陣，其中 k 被稱爲隱向量維度。在原始的稀疏矩陣 R 中，大部分二階特徵的關係係數是缺失的。而經過訓練模型最小化 R 和預測矩陣 R‘ 的損失（如最小二乘），能夠求出任意 Ri,j 的值。

MF 可說是大部分推薦系統裏協同過濾的標杆方法了，但仍然存在一些問題。好比過於稀疏的矩陣對於最後評分的預測依然有很大影響，而且當用戶特徵或者內容特徵缺失（即冷啓動）時，沒法進行合理的預測。此時，基於深度學習的一些嘗試開始了。如基於DNN實現，能夠很輕易地將內容的一些語義特徵，以及用戶的固有屬性與行爲特徵拼接在一塊兒做爲神經網絡輸入來訓練，能夠在以前行爲協同的前提下加入對內容特徵的學習，從而解決冷啓動問題。感興趣的同窗能夠閱讀相關論文，在此不作展開。

基於內容的召回

主要是以以前 NLP 獲得的內容畫像爲基礎，以item 對應分類/主題/關鍵詞的權重創建召回，依據用戶畫像的相應權重和內容畫像的距離排序召回。

基於用戶羣

首先咱們須要對用戶分羣，聚類的方案有不少，

　　一、對item進行向量化（w2v）而後對item進行聚類，用戶對item的行爲就能夠把item的簇賦值到user身上。

　　二、直接對用戶進行向量化，好比降維。

總之最終的目的就是將用戶embedding成一個向量，而後在對用戶向量進行聚類，通常k-means就能夠勝任大部分的場景。

倒排鏈

tag-itemList，對每一個用戶的tag進行遍歷，而後經過倒排鏈快速找到含有該tag的itemList而後topN抽取。

子策略融合

爲告終合不一樣觸發算法的優勢，同時提升候選集的多樣性和覆蓋率，須要將不一樣的觸發算法融合在一塊兒。常見的融合的方法有如下幾種[3]：

加權型：最簡單的融合方法就是根據經驗值對不一樣算法賦給不一樣的權重，對各個算法產生的候選集按照給定的權重進行加權，而後再按照權重排序。
分級型：優先採用效果好的算法，當產生的候選集大小不足以知足目標值時，再使用效果次好的算法，依此類推。
調製型：不一樣的算法按照不一樣的比例產生必定量的候選集，而後疊加產生最終總的候選集。
過濾型：當前的算法對前一級算法產生的候選集進行過濾，依此類推，候選集被逐級過濾，最終產生一個小而精的候選集合。

目前咱們使用的方法集成了調製和分級兩種融合方法，不一樣的算法根據歷史效果表現給定不一樣的候選集構成比例，同時優先採用效果好的算法觸發，若是候選集不夠大，再採用效果次之的算法觸發，依此類推。

模型排序（Ranking）

如上所述，對於不一樣算法觸發出來的候選集，只是根據算法的歷史效果決定算法產生的item的位置顯得有些簡單粗暴，同時，在每一個算法的內部，不一樣item的順序也只是簡單的由一個或者幾個因素決定，這些排序的方法只能用於第一步的初選過程，最終的排序結果須要藉助機器學習的方法，使用相關的排序模型，綜合多方面的因素來肯定。

一、模型選擇和比較　　

　　非線性模型能較好的捕捉特徵中的非線性關係，但訓練和預測的代價相對線性模型要高一些，這也致使了非線性模型的更新週期相對要長。反之，線性模型對特徵的處理要求比較高，須要憑藉領域知識和經驗人工對特徵作一些先期處理，但由於線性模型簡單，在訓練和預測時效率較高。所以在更新週期上也能夠作的更短，還能夠結合業務作一些在線學習的嘗試。在咱們的實踐中，非線性模型和線性模型都有應用。

非線性模型　　

目前咱們主要採用了非線性的樹模型gbdt，相對於線性模型，非線性模型能夠更好的處理特徵中的非線性關係，沒必要像線性模型那樣在特徵處理和特徵組合上花費比較大的精力。gbdt是一個加性模型，由不少個樹組成，後面的樹不斷擬合前一顆樹的殘差，並且每個樹帶入的都是全訓練集，由此能夠減少過擬合的影響。後續的文章會單獨總結gbdt的應用和落地細節、公式推導、面試問點等細節.

線性模型

　　目前應用比較多的線性模型非Logistic Regression莫屬了。爲了能實時捕捉數據分佈的變化，咱們引入了online learning，接入實時數據流，使用google提出的FTRL[5]方法對模型進行在線更新。後續也會單獨寫一篇FTRL的應用、特徵、落地、面試問點等細節。

主要的步驟以下：

在線寫特徵向量到HBase
Storm解析實時點擊和曝光日誌流，改寫HBase中對應特徵向量的label
經過FTRL更新模型權重
將新的模型參數應用於線上

2. 數據

採樣：對於點擊率預估而言，正負樣本嚴重不均衡，因此須要對負例作一些採樣。
負例：正例通常是用戶產生點擊、下載、分享等轉換行爲的樣本，可是用戶沒有轉換行爲的樣本是否就必定是負例呢？其實否則，不少展示其實用戶根本沒有看到，因此把這樣樣本視爲負例是不合理的，也會影響模型的效果。比較經常使用的方法是skip-above，即用戶點擊的item位置以上的展示纔可能視做負例。固然，上面的負例都是隱式的負反饋數據，除此以外，咱們還有用戶主動刪除的顯示負反饋數據，這些數據是高質量的負例。
去噪：對於數據中混雜的刷單等類做弊行爲的數據，要將其排除出訓練數據，不然會直接影響模型的效果。

3. 特徵

在咱們目前的重排序模型中，大概分爲如下幾類特徵：

item維度的特徵：主要是item自己的一些屬性，包括category、pv、ctr、sub-category、tag等
user維度的特徵：包括用戶等級、用戶的人口屬性、用戶的客戶端類型等
user、deal的交叉特徵：包括用戶對item的category的點擊、收藏等

對於非線性模型，上述特徵能夠直接使用；而對於線性模型，則須要對特徵值作一些分桶、歸一化等處理，使特徵值成爲0~1之間的連續值或01二值。

推薦系統架構

推薦系統介紹