FM/FFM原理

時間 2019-12-07

標籤 ffm 原理简体版

原文原文鏈接

轉自https://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.htmlhtml

深刻FFM原理與實踐

del2z, 大龍 ·2016-03-03 09:00git

FM和FFM模型是最近幾年提出的模型，憑藉其在數據量比較大而且特徵稀疏的狀況下，仍然可以獲得優秀的性能和效果的特性，多次在各大公司舉辦的CTR預估比賽中得到不錯的戰績。美團點評技術團隊在搭建DSP的過程當中，探索並使用了FM和FFM模型進行CTR和CVR預估，而且取得了不錯的效果。本文旨在把咱們對FM和FFM原理的探索和應用的經驗介紹給有興趣的讀者。github

前言

在計算廣告領域，點擊率CTR（click-through rate）和轉化率CVR（conversion rate）是衡量廣告流量的兩個關鍵指標。準確的估計CTR、CVR對於提升流量的價值，增長廣告收入有重要的指導做用。預估CTR/CVR，業界經常使用的方法有人工特徵工程 + LR(Logistic Regression)、GBDT(Gradient Boosting Decision Tree) + LR[1][2][3]、FM（Factorization Machine）[2][7]和FFM（Field-aware Factorization Machine）[9]模型。在這些模型中，FM和FFM近年來表現突出，分別在由Criteo和Avazu舉辦的CTR預測競賽中奪得冠軍[4][5]。算法

考慮到FFM模型在CTR預估比賽中的不俗戰績，美團點評技術團隊在搭建DSP（Demand Side Platform）[6]平臺時，在站內CTR/CVR的預估上使用了該模型，取得了不錯的效果。本文是基於對FFM模型的深度調研和使用經驗，從原理、實現和應用幾個方面對FFM進行探討，但願可以從原理上解釋FFM模型在點擊率預估上取得優秀效果的緣由。由於FFM是在FM的基礎上改進得來的，因此咱們首先引入FM模型，本文章節組織方式以下：編程

首先介紹FM的原理。
其次介紹FFM對FM的改進。
而後介紹FFM的實現細節。
最後介紹模型在DSP場景的應用。

FM原理

FM（Factorization Machine）是由Konstanz大學Steffen Rendle（現任職於Google）於2010年最先提出的，旨在解決稀疏數據下的特徵組合問題[7]。下面以一個示例引入FM模型。假設一個廣告分類的問題，根據用戶和廣告位相關的特徵，預測用戶是否點擊了廣告。源數據以下[8]windows

Clicked?	Country	Day	Ad_type
1	USA	26/11/15	Movie
0	China	1/7/14	Game
1	China	19/2/15	Game

"Clicked?"是label，Country、Day、Ad_type是特徵。因爲三種特徵都是categorical類型的，須要通過獨熱編碼（One-Hot Encoding）轉換成數值型特徵。多線程

Clicked?	Country=USA	Country=China	Day=26/11/15	Day=1/7/14	Day=19/2/15	Ad_type=Movie	Ad_type=Game
1	1	0	1	0	0	1	0
0	0	1	0	1	0	0	1
1	0	1	0	0	1	0	1

由上表能夠看出，通過One-Hot編碼以後，大部分樣本數據特徵是比較稀疏的。上面的樣例中，每一個樣本有7維特徵，但平均僅有3維特徵具備非零值。實際上，這種狀況並非此例獨有的，在真實應用場景中這種狀況廣泛存在。例如，CTR/CVR預測時，用戶的性別、職業、教育水平、品類偏好，商品的品類等，通過One-Hot編碼轉換後都會致使樣本數據的稀疏性。特別是商品品類這種類型的特徵，如商品的末級品類約有550個，採用One-Hot編碼生成550個數值特徵，但每一個樣本的這550個特徵，有且僅有一個是有效的（非零）。因而可知，數據稀疏性是實際問題中不可避免的挑戰。ide

One-Hot編碼的另外一個特色就是致使特徵空間大。例如，商品品類有550維特徵，一個categorical特徵轉換爲550維數值特徵，特徵空間劇增。函數

同時經過觀察大量的樣本數據能夠發現，某些特徵通過關聯以後，與label之間的相關性就會提升。例如，「USA」與「Thanksgiving」、「China」與「Chinese New Year」這樣的關聯特徵，對用戶的點擊有着正向的影響。換句話說，來自「China」的用戶極可能會在「Chinese New Year」有大量的瀏覽、購買行爲，而在「Thanksgiving」卻不會有特別的消費行爲。這種關聯特徵與label的正向相關性在實際問題中是廣泛存在的，如「化妝品」類商品與「女」性，「球類運動配件」的商品與「男」性，「電影票」的商品與「電影」品類偏好等。所以，引入兩個特徵的組合是很是有意義的。性能

多項式模型是包含特徵組合的最直觀的模型。在多項式模型中，特徵 $x_{i}$

y (x) = w 0 + \sum i = 1 n w i x i + \sum i = 1 n \sum j = i + 1 n

其中， $n$

從公式 $(1)$

那麼，如何解決二次項參數的訓練問題呢？矩陣分解提供了一種解決思路。在model-based的協同過濾中，一個rating矩陣能夠分解爲user矩陣和item矩陣，每一個user和item均可以採用一個隱向量表示[8]。好比在下圖中的例子中，咱們把每一個user表示成一個二維向量，同時把每一個item表示成一個二維向量，兩個向量的點積就是矩陣中user對item的打分。

相似地，全部二次項參數 $w_{i j}$

y (x) = w 0 + \sum i = 1 n w i x i + \sum i = 1 n \sum j = i + 1 n

其中， $v_{i}$

顯而易見，公式 $(2)$

\sum i = 1 n \sum j = i + 1 n ⟨ v i, v j ⟩ x i x j = 1 2 \sum

咱們再來看一下FM的訓練複雜度，利用SGD（Stochastic Gradient Descent）訓練模型。模型各個參數的梯度以下

\partial \partial θ y ( x ) = ⎧⎩⎨⎪⎪ 1 , x i , x i \sum n j = 1 v j , f

其中， $v_{j, f}$

FM與其餘模型的對比

FM是一種比較靈活的模型，經過合適的特徵變換方式，FM能夠模擬二階多項式核的SVM模型、MF模型、SVD++模型等[7]。

相比SVM的二階多項式核而言，FM在樣本稀疏的狀況下是有優點的；並且，FM的訓練/預測複雜度是線性的，而二項多項式核SVM須要計算核矩陣，核矩陣複雜度就是N平方。

相比MF而言，咱們把MF中每一項的rating分改寫爲 $r_{u i} \sim β_{u} + γ_{i} + x_{u}^{T} y_{i}$

FFM原理

FFM（Field-aware Factorization Machine）最初的概念來自Yu-Chin Juan（阮毓欽，畢業於中國臺灣大學，如今美國Criteo工做）與其比賽隊員，是他們借鑑了來自Michael Jahrer的論文[14]中的field概念提出了FM的升級版模型。經過引入field的概念，FFM把相同性質的特徵歸於同一個field。以上面的廣告分類爲例，「Day=26/11/15」、「Day=1/7/14」、「Day=19/2/15」這三個特徵都是表明日期的，能夠放到同一個field中。同理，商品的末級品類編碼生成了550個特徵，這550個特徵都是說明商品所屬的品類，所以它們也能夠放到同一個field中。簡單來講，同一個categorical特徵通過One-Hot編碼生成的數值特徵均可以放到同一個field，包括用戶性別、職業、品類偏好等。在FFM中，每一維特徵 $x_{i}$

假設樣本的 $n$

y (x) = w 0 + \sum i = 1 n w i x i + \sum i = 1 n \sum j = i + 1 n

其中， $f_{j}$

下面以一個例子簡單說明FFM的特徵組合方式[9]。輸入記錄以下

User	Movie	Genre	Price
YuChin	3Idiots	Comedy, Drama	$9.99

這條記錄能夠編碼成5個特徵，其中「Genre=Comedy」和「Genre=Drama」屬於同一個field，「Price」是數值型，不用One-Hot編碼轉換。爲了方便說明FFM的樣本格式，咱們將全部的特徵和對應的field映射成整數編號。

Field name	Field index	Feature name	Feature index
User	1	User=YuChin	1
Movie	2	Movie=3Idiots	2
Genre	3	Genre=Comedy	3
Price	4	Genre=Drama	4
		Price	5

那麼，FFM的組合特徵有10項，以下圖所示。

⟨ v 1, 2, v 2, 1 ⟩ \cdot

其中，紅色是field編號，藍色是特徵編號，綠色是此樣本的特徵取值。二次項的係數是經過與特徵field相關的隱向量點積獲得的，二次項共有 $\frac{n (n - 1)}{2}$

FFM實現

Yu-Chin Juan實現了一個C++版的FFM模型，源碼可從Github下載[10]。這個版本的FFM省略了常數項和一次項，模型方程以下。

ϕ (w, x) = \sum j 1, j 2 \in  2 ⟨ w j 1, f 2,

其中， $C_{2}$

min w \sum i = 1 L log (1 + exp {- y i ϕ (w, x i)}) +

其中， $y_{i} \in {- 1, 1}$

參考 $A l g o r i t h m 1$

根據樣本特徵數量（ $t r . n$
若是歸一化參數 $p a . n o r m$ $R [i] = 1 ‖ X [ i ] ‖$
對每一輪迭代，若是隨機更新參數 $p a . r a n d$
對每個訓練樣本，執行以下操做
- 計算每個樣本的FFM項，即公式 $(5)$
- 計算每個樣本的訓練偏差，如算法所示，這裏採用的是交叉熵損失函數 $\log (1 + e ϕ)$
- 利用單個樣本的損失函數計算梯度 $g_{Φ}$
對每個驗證樣本，計算樣本的FFM輸出，計算驗證偏差；
重複步驟3~5，直到迭代結束或驗證偏差達到最小。

在SGD尋優時，代碼採用了一些小技巧，對於提高計算效率是很是有效的。

第一，梯度分步計算。採用SGD訓練FFM模型時，只採用單個樣本的損失函數來計算模型參數的梯度。

 =  e r r +  r e g = log (1 + exp {- y i ϕ (w,

\partial  \partial w = \partial  e r r \partial ϕ \cdot \partial ϕ \partial w + \partial

上面的公式代表， $\frac{\partial L_{e r r}}{\partial ϕ}$

第二，自適應學習率。此版本的FFM實現沒有采用經常使用的指數遞減的學習率更新策略，而是利用 $n f k$

w' j 1, f 2 = w j 1, f 2 - η 1 + \sum t ( g t w

其中， $w_{j_{1}, f_{2}}$

第三，OpenMP多核並行計算。OpenMP是用於共享內存並行系統的多處理器程序設計的編譯方案，便於移植和多核擴展[12]。FFM的源碼採用了OpenMP的API，對參數訓練過程SGD進行了多線程擴展，支持多線程編譯。所以，OpenMP技術極大地提升了FFM的訓練效率和多核CPU的利用率。在訓練模型時，輸入的訓練參數ns_threads指定了線程數量，通常設定爲CPU的核心數，便於徹底利用CPU資源。

第四，SSE3指令並行編程。SSE3全稱爲數據流單指令多數據擴展指令集3，是CPU對數據層並行的關鍵指令，主要用於多媒體和遊戲的應用程序中[13]。SSE3指令採用128位的寄存器，同時操做4個單精度浮點數或整數。SSE3指令的功能很是相似於向量運算。例如， $a$

除了上面的技巧以外，FFM的實現中還有不少調優技巧須要探索。例如，代碼是按field和特徵的編號申請參數空間的，若是選取了非連續或過大的編號，就會形成大量的內存浪費；在每一個樣本中加入值爲1的新特徵，至關於引入了因子化的一次項，避免了缺乏一次項帶來的模型誤差等。

FFM應用

在DSP的場景中，FFM主要用來預估站內的CTR和CVR，即一個用戶對一個商品的潛在點擊率和點擊後的轉化率。

CTR和CVR預估模型都是在線下訓練，而後用於線上預測。兩個模型採用的特徵大同小異，主要有三類：用戶相關的特徵、商品相關的特徵、以及用戶-商品匹配特徵。用戶相關的特徵包括年齡、性別、職業、興趣、品類偏好、瀏覽/購買品類等基本信息，以及用戶近期點擊量、購買量、消費額等統計信息。商品相關的特徵包括所屬品類、銷量、價格、評分、歷史CTR/CVR等信息。用戶-商品匹配特徵主要有瀏覽/購買品類匹配、瀏覽/購買商家匹配、興趣偏好匹配等幾個維度。

爲了使用FFM方法，全部的特徵必須轉換成「field_id:feat_id:value」格式，field_id表明特徵所屬field的編號，feat_id是特徵編號，value是特徵的值。數值型的特徵比較容易處理，只需分配單獨的field編號，如用戶評論得分、商品的歷史CTR/CVR等。categorical特徵須要通過One-Hot編碼成數值型，編碼產生的全部特徵同屬於一個field，而特徵的值只能是0或1，如用戶的性別、年齡段，商品的品類id等。除此以外，還有第三類特徵，如用戶瀏覽/購買品類，有多個品類id且用一個數值衡量用戶瀏覽或購買每一個品類商品的數量。這類特徵按照categorical特徵處理，不一樣的只是特徵的值不是0或1，而是表明用戶瀏覽或購買數量的數值。按前述方法獲得field_id以後，再對轉換後特徵順序編號，獲得feat_id，特徵的值也能夠按照以前的方法得到。

CTR、CVR預估樣本的類別是按不一樣方式獲取的。CTR預估的正樣本是站內點擊的用戶-商品記錄，負樣本是展示但未點擊的記錄；CVR預估的正樣本是站內支付（發生轉化）的用戶-商品記錄，負樣本是點擊但未支付的記錄。構建出樣本數據後，採用FFM訓練預估模型，並測試模型的性能。

	#(field)	#(feature)	AUC	Logloss
站內CTR	39	2456	0.77	0.38
站內CVR	67	2441	0.92	0.13

因爲模型是按天訓練的，天天的性能指標可能會有些波動，但變化幅度不是很大。這個表的結果說明，站內CTR/CVR預估模型是很是有效的。

在訓練FFM的過程當中，有許多小細節值得特別關注。

第一，樣本歸一化。FFM默認是進行樣本數據的歸一化，即 $p a . n o r m$

第二，特徵歸一化。CTR/CVR模型採用了多種類型的源特徵，包括數值型和categorical類型等。可是，categorical類編碼後的特徵取值只有0或1，較大的數值型特徵會形成樣本歸一化後categorical類生成特徵的值很是小，沒有區分性。例如，一條用戶-商品記錄，用戶爲「男」性，商品的銷量是5000個（假設其它特徵的值爲零），那麼歸一化後特徵「sex=male」（性別爲男）的值略小於0.0002，而「volume」（銷量）的值近似爲1。特徵「sex=male」在這個樣本中的做用幾乎能夠忽略不計，這是至關不合理的。所以，將源數值型特徵的值歸一化到 $[0, 1]$

第三，省略零值特徵。從FFM模型的表達式 $(4)$

後記

本文主要介紹了FFM的思路來源和理論原理，並結合源碼說明FFM的實際應用和一些小細節。從理論上分析，FFM的參數因子化方式具備一些顯著的優點，特別適合處理樣本稀疏性問題，且確保了較好的性能；從應用結果來看，站內CTR/CVR預估採用FFM是很是合理的，各項指標都說明了FFM在點擊率預估方面的卓越表現。固然，FFM不必定適用於全部場景且具備超越其餘模型的性能，合適的應用場景才能成就FFM的「威名」。