網易雲課堂個性化推薦實踐與思考

時間 2021-04-29

原文原文鏈接

做者/ 韓虹瑩
編輯/ Ein

從人和信息的博弈談推薦系統緣起

首先談談我理解的推薦系統。算法

若是說推薦系統的定義是什麼，每本書每篇文章說的都不太同樣，協同過濾1992年就已經有了，三十年裏無數大佬分析了個性化推薦的緣起和意義，世界已經不須要多一我的的看法。可是，當全部人都說一件事情是正確的時候，咱們也要想清楚它爲何是正確的。架構

若是你問我推薦系統是什麼，我會告訴你，是信息到人的精準分發。那麼爲何在這個時代推薦系統才應運而生？古人不會須要信息精準分發，車馬信息都很慢，古人學富五車不過如今一個書包的信息量；惟有如今人才須要信息精準分發，信息太多時間太少，亂花漸欲迷人眼，因此咱們須要一個智能的系統，幫助你過來過濾信息，因此推薦系統是人和信息的橋樑。機器學習

固然，正如羅馬不是一天建成的同樣，在互聯網上搭個橋也是要演進的，最開始是個小木橋——門戶網站，用分類導航分發了信息；後來演化到了石板橋——搜索引擎，人能夠更精準的找信息；逐步的信息太多了，要變成信息找人，在這個過程當中，不管是信息的消費者，仍是信息的生產者，都遇到了未曾預見的困難，信息消費者找不到信息了，信息生產者沒法讓本身的信息展示在消費者眼前，有痛點就有需求，有需求就有產品，因而推薦系統做爲一個產品，恰到好處又必然的到來。凱文凱利在《必然》裏，把這個趨勢稱爲「過濾」：ide

進行過濾是必然的，由於咱們在不停地製造新東西。而在咱們將要製造的新東西中，首要的一點就是創造新的方式來過濾信息和個性化定製，以突顯咱們之間的差別。

人如何和信息相處，推薦系統既不是起點，恐怕也不會是終局，但它已是當前人們對於處理信息所能作的最好的實踐了。函數

大廠如何玩轉推薦系統

大廠實踐比較

這裏選取了幾個比較典型的推薦系統實現，他們分別屬於幾種推薦系統的典型場景

深度學習算法比較

針對幾個大廠部分採用了一些深度學習的模型，這裏也調研對比了深度學習模型的特色和優劣勢

雲課堂的個性化推薦

特徵工程

主要選用了用戶行爲數據，用戶行爲數據在推薦系統中有顯性反饋行爲和隱性反饋行爲兩種，在雲課堂場景下，用戶的評分屬於顯性行爲，用戶的購課，學習，作筆記等都屬於隱性行爲。對於這些行爲，咱們根據業務重要程度，都給出了初始分數，生成了用戶-課程的初始評分矩陣

評分矩陣簡單表示以下：

算法選型

在個性化推薦系統搭建初期，因爲咱們是從0到1開始構建，因此並無選擇在初期選擇複雜的深度學習算法，以及構建豐富的用戶畫像，但願在初期快速構建一個MVP版本上線，後續逐步反思優化迭代

因此在算法選型上，咱們從下面三種方案中進行評估選擇

基於標籤匹配
基於用戶/行爲的協同過濾
基於矩陣分解的協同過濾

那麼咱們是如何進行取捨的？

關於方案一，若是但願方案一取得較好的效果，關鍵點在於依賴標籤體系的建設，只有標籤體系足夠完善，也就是說，推薦結果的好壞，是可預計的，強依賴於標籤體系的建設的。

關於方案二，它的缺點在於處理稀疏矩陣的能力較弱，而云課堂中用戶的學習行爲並不能算是高頻行爲，同時頭部效應明顯，而咱們但願的是經過個性化推薦系統，挖掘更多隱含的可能性，保留更多平臺上更多平時沒機會暴露的課程，顯然基於近鄰方式的協同過濾，不是一個很合適的選擇。而基於矩陣分解的方法能夠必定程度上加強稀疏矩陣的處理能力，同時引入隱向量，能夠從用戶行爲中挖掘更多的可能性。

咱們選用了基於ALS（交替最小二乘法）的矩陣分解模型做爲第一個實踐的算法，採用的是Spark MLlib提供的API。

在ALS模型的構建過程當中，須要調整以下幾個參數以取得最好的效果

對於上面幾個參數，分別調整了幾回參數，以MSE 和 RMSE 做爲評價指標

均方偏差（ Mean Square Error , MSE）和均方根偏差( Root Mean Square Error , RMSE) 常常被用來衡量回歸模型的好壞。通常狀況下， RMSE 可以很好地反映迴歸模型預測值與真實值的偏離程度。但在實際應用時，若是存在個別偏離程度很是大的離羣點，那麼即便離羣點數量很是少，也會讓這兩個指標變得不好。

工程落地

一個能夠落地的推薦系統，數據收集模塊，ETL模塊，特徵工程模塊，推薦算法模塊，Web服務模塊模塊是必不可少的，首先來一個總體架構圖：

接下來簡單對幾個模塊的實現進行說明：

參考文獻

1.《深度學習推薦系統》王喆

2.《推薦系統原理與實踐》 Charu C. Aggarwal

-END-

相關標籤/搜索

網易雲課堂個性化推薦實踐與思考

從人和信息的博弈談推薦系統緣起

推薦系統要如何知足需求

推薦系統常規架構

推薦系統常見模型概述與比較

機器學習推薦模型演化過程

協同過濾

基於用戶協同過濾

基於物品協同過濾

矩陣分解

顯示矩陣目標函數

隱式矩陣目標函數

邏輯迴歸→POLY2→FM→FFM

POLY2模型——特徵的「暴力」組合

FM——隱向量的特徵交叉

FFM——特徵域

模型演化的形象化表示

POLY2模型

FM模型

FFM模型

傳統機器學習算法比較