這是最先的一篇YouTube的推薦系統的文章,原文來自The YouTube Video Recommendation System。發表於2010年。markdown
YouTube擁有世界上最大的視頻推薦系統之一,在2010年,整個系統還比較簡略,不過也值得了解一下。session
用戶使用YouTube時通常有三種目的:1. 觀看特定的video;2.觀看特定topic的video;3.瀏覽並尋找感興趣的視頻。推薦系統主要爲第三種需求服務,所以,推薦系統的目標是爲用戶推薦高質量並貼合他們的興趣的視頻,推薦結果應該隨時間和用戶最近的行爲更新。 在YouTube的推薦應用中,存在一些特殊的挑戰:ide
這是YouTube的推薦和普通視頻網站的推薦不同的地方,也是如今的不少段視頻公司會關注的問題。函數
推薦系統的輸入主要由內容相關的信息和用戶行爲相關的信息組成。其中,用戶行爲包括explicit和implicit feedback。前者是指用戶評分、明確表示喜歡、不喜歡等行爲,後者是瀏覽、觀看等行爲。原始數據中還含有很是多的噪聲,不少不可控因素會影響原始數據的質量。oop
爲了肯定要推薦哪些視頻,文章給出了相關視頻的定義:視頻v的相關視頻是指可能在視頻v以後被用戶觀看的視頻。兩個視頻的相關性由關聯規則挖掘方法來肯定。視頻i和j的相關性定義爲: ,其中
表示
和
共同出現的次數,
是一個和視頻
和
的出現次數相關的函數,最簡單的一個此類函數爲
。利用這個相關係數能夠選出與種子視頻
相關的視頻集合
。簡單地說,這個視頻集合是由一個threshold肯定的。測試
將用戶觀看過的視頻、喜歡過的視頻、收藏過的視頻等等做爲種子集合,再把它們的相關視頻集合合併到一塊兒,就獲得了一個最簡單的召回策略。但實際上,因爲用戶的口味在必定時期每每保持一致,這些種子視頻的範圍每每很狹窄。網站
爲了擴大多樣性,YouTube選擇召回的不是1步相關視頻,而是n-步相關視頻,即種子視頻迭代n次後獲得的相關視頻集合。spa
在獲得召回的視頻集合之後,須要對這些相關視頻進行排序。 用於排序的數據主要包括:設計
這些數據最終被線性組合起來,獲得ranking的評分。code
文章還提到了其餘一些細節: