論文閱讀(2014-2)----The YouTube Video Recommendation System

  這是谷歌youtube在2010的一篇文章,估計如今的思路有不少升級了,可是裏面的知識點仍是很不錯的。主要講youtube的個性化推薦思路。下面根據論文的結構我把我理解的思路整理以下,若是有問題,歡迎指出。算法

1 介紹函數

在信息抽取和內容發現方面,個性化推薦是很是關鍵的方法。測試

1.1 目標spa

推薦系統的目的是幫助用戶發現他們感興趣的高質量視頻,來讓用戶樂在其中。設計

1.2 挑戰視頻

用戶上傳的視頻的元信息很是少和粗糙、視頻時長比較短、用戶交互相對較短和有噪聲、視頻生命週期短。blog

2 系統設計排序

推薦系統算法保持實時性和新鮮性,就像多樣性和相關性。推薦的視頻是經過用戶的行爲來生成的,用戶的行爲包括觀看、收藏、喜歡等來做爲種子視頻,而後經過在一個會話中同時觀看來擴展。推薦系統的工程設計方面,保持各個模塊儘可能的解耦,保持各個模塊的獨立性。保持系統的容錯和系統某一部分失敗後優雅的降級處理方案。生命週期

2.1 輸入數據ci

這裏有2種數據能夠考慮,1)是內容數據視頻流、視頻元信息(標題,標籤等)。2)用戶行爲數據,包括顯性和隱性數據。

2.2 相關視頻

co-visitation counts,計算在用戶的一個會話中(一般24小時),計算vi,vj共同被觀看的次數,進而計算vi和vj的相關性。

r(vi,vj)=cij/f(vi,vj),cij是全部會話中vi和vj共現的次數,f(vi,vj)是視頻歡迎度的歸一化的函數,一個簡單的歸一化函數是f(vi,vj)=ci * vj,也能夠是其餘的歸一化函數。

選擇TopN推薦結果,也考慮了最小分值閾值,卡掉小的counts對。還有展現偏見、觀看噪聲。除了上面的co-visit,還能夠考慮序列的和時間的有向圖,以及視頻元信息。

2.3 生成推薦候選列表

經過用戶的喜歡,播放列表等種子視頻進行N級的級聯擴展,產生廣闊和多樣的候選結果。

2.4 排序

經過視頻質量、用戶特徵、多樣性,而後用顯性融合的方式來產生排序的推薦列表。

2.5 用戶交互界面

推薦的展現是很是重要的一部分。有一些特徵是很是重要的,好比標題、視頻年齡、受歡迎度、爲啥推薦等來幫助用戶決策是否觀看。最後,增長讓用戶控制推薦結果的個數和位置。

2.6 系統實現

數據蒐集、數據計算推薦結果、推薦結果提供服務。

3 評價

AB測試進行快速的評測,迭代。評價指標方面包括ctr、long ctr、會話時長、第一個long watch須要的時間、推薦覆蓋等等。

4 結論

推薦系統、最多播放、最多喜歡、最大評分的效果對比。

相關文章
相關標籤/搜索