探索推薦引擎內部的祕密，第 1 部分: 推薦引擎初探

時間 2019-11-17

標籤探索推薦引擎內部祕密部分初探简体版

原文原文鏈接

隨着 Web 技術的發展，使得內容的建立和分享變得愈來愈容易。天天都有大量的圖片、博客、視頻發佈到網上。信息的極度爆炸使得人們找到他們須要的信息將變得愈來愈難。傳統的搜索技術是一個相對簡單的幫助人們找到信息的工具，也普遍的被人們所使用，但搜索引擎並不能徹底知足用戶對信息發現的需求，緣由一是用戶很難用恰當的關鍵詞描述本身的需求，二是基於關鍵詞的信息檢索在不少狀況下是不夠的。而推薦引擎的出現，使用戶獲取信息的方式從簡單的目標明確的數據的搜索轉換到更高級更符合人們使用習慣的上下文信息更豐富的信息發現。「探索推薦引擎內部的祕密」系列將帶領讀者從淺入深的學習探索推薦引擎的機制，實現方法，其中還涉及一些基本的優化方法，例如聚類和分類的應用。同時在理論講解的基礎上，還會結合 Apache Mahout 介紹如何在大規模數據上實現各類推薦策略，進行策略優化，構建高效的推薦引擎的方法。本文做爲這個系列的第一篇文章，將深刻介紹推薦引擎的工做原理，和其中涉及的各類推薦機制，以及它們各自的優缺點和適用場景，幫助用戶清楚的瞭解和快速構建適合本身的推薦引擎。html

信息發現

現在已經進入了一個數據爆炸的時代，隨着 Web 2.0 的發展， Web 已經變成數據分享的平臺，那麼，如何讓人們在海量的數據中想要找到他們須要的信息將變得愈來愈難。在這樣的情形下，搜索引擎（Google，Bing，百度等等）成爲你們快速找到目標信息的最好途徑。在用戶對本身需求相對明確的時候，用搜索引擎很方便的經過關鍵字搜索很快的找到本身須要的信息。但搜索引擎並不能徹底知足用戶對信息發現的需求，那是由於在不少狀況下，用戶其實並不明確本身的須要，或者他們的需求很難用簡單的關鍵字來表述。又或者他們須要更加符合他們我的口味和喜愛的結果，所以出現了推薦系統，與搜索引擎對應，你們也習慣稱它爲推薦引擎。隨着推薦引擎的出現，用戶獲取信息的方式從簡單的目標明確的數據的搜索轉換到更高級更符合人們使用習慣的信息發現。現在，隨着推薦技術的不斷髮展，推薦引擎已經在電子商務 (E-commerce，例如 Amazon，噹噹網 ) 和一些基於 social 的社會化站點 ( 包括音樂，電影和圖書分享，例如豆瓣，Mtime 等 ) 都取得很大的成功。這也進一步的說明了，Web2.0 環境下，在面對海量的數據，用戶須要這種更加智能的，更加了解他們需求，口味和喜愛的信息發現機制。web

深刻推薦機制

這一章的篇幅，將詳細介紹各個推薦機制的工做原理，它們的優缺點以及應用場景。

基於人口統計學的推薦

基於人口統計學的推薦機制（Demographic-based Recommendation）是一種最易於實現的推薦方法，它只是簡單的根據系統用戶的基本信息發現用戶的相關程度，而後將類似用戶喜好的其餘物品推薦給當前用戶，圖 2 給出了這種推薦的工做原理。

圖 2. 基於人口統計學的推薦機制的工做原理

從圖中能夠很清楚的看到，首先，系統對每一個用戶都有一個用戶 Profile 的建模，其中包括用戶的基本信息，例如用戶的年齡，性別等等；而後，系統會根據用戶的 Profile 計算用戶的類似度，能夠看到用戶 A 的 Profile 和用戶 C 同樣，那麼系統會認爲用戶 A 和 C 是類似用戶，在推薦引擎中，能夠稱他們是「鄰居」；最後，基於「鄰居」用戶羣的喜愛推薦給當前用戶一些物品，圖中將用戶 A 喜歡的物品 A 推薦給用戶 C。這種基於人口統計學的推薦機制的好處在於：

由於不使用當前用戶對物品的喜愛歷史數據，因此對於新用戶來說沒有「冷啓動（Cold Start）」的問題。
這個方法不依賴於物品自己的數據，因此這個方法在不一樣物品的領域均可以使用，它是領域獨立的（domain-independent）。

那麼這個方法的缺點和問題是什麼呢？這種基於用戶的基本信息對用戶進行分類的方法過於粗糙，尤爲是對品味要求較高的領域，好比圖書，電影和音樂等領域，沒法獲得很好的推薦效果。可能在一些電子商務的網站中，這個方法能夠給出一些簡單的推薦。另一個侷限是，這個方法可能涉及到一些與信息發現問題自己無關卻比較敏感的信息，好比用戶的年齡等，這些用戶信息不是很好獲取。

基於內容的推薦

基於內容的推薦是在推薦引擎出現之初應用最爲普遍的推薦機制，它的核心思想是根據推薦物品或內容的元數據，發現物品或者內容的相關性，而後基於用戶以往的喜愛記錄，推薦給用戶類似的物品。圖 3 給出了基於內容推薦的基本原理。

圖 3. 基於內容推薦機制的基本原理

圖 3 中給出了基於內容推薦的一個典型的例子，電影推薦系統，首先咱們須要對電影的元數據有一個建模，這裏只簡單的描述了一下電影的類型；而後經過電影的元數據發現電影間的類似度，由於類型都是「愛情，浪漫」電影 A 和 C 被認爲是類似的電影（固然，只根據類型是不夠的，要獲得更好的推薦，咱們還能夠考慮電影的導演，演員等等）；最後實現推薦，對於用戶 A，他喜歡看電影 A，那麼系統就能夠給他推薦相似的電影 C。這種基於內容的推薦機制的好處在於它能很好的建模用戶的口味，能提供更加精確的推薦。但它也存在如下幾個問題：

須要對物品進行分析和建模，推薦的質量依賴於對物品模型的完整和全面程度。在如今的應用中咱們能夠觀察到關鍵詞和標籤（Tag）被認爲是描述物品元數據的一種簡單有效的方法。
物品類似度的分析僅僅依賴於物品自己的特徵，這裏沒有考慮人對物品的態度。
由於須要基於用戶以往的喜愛歷史作出推薦，因此對於新用戶有「冷啓動」的問題。

雖然這個方法有不少不足和問題，但他仍是成功的應用在一些電影，音樂，圖書的社交站點，有些站點還請專業的人員對物品進行基因編碼，好比潘多拉，在一份報告中說道，在潘多拉的推薦引擎中，每首歌有超過 100 個元數據特徵，包括歌曲的風格，年份，演唱者等等。

基於協同過濾的推薦

隨着 Web2.0 的發展，Web 站點更加提倡用戶參與和用戶貢獻，所以基於協同過濾的推薦機制因運而生。它的原理很簡單，就是根據用戶對物品或者信息的偏好，發現物品或者內容自己的相關性，或者是發現用戶的相關性，而後再基於這些關聯性進行推薦。基於協同過濾的推薦能夠分爲三個子類：基於用戶的推薦（User-based Recommendation），基於項目的推薦（Item-based Recommendation）和基於模型的推薦（Model-based Recommendation）。下面咱們一個一個詳細的介紹着三種協同過濾的推薦機制。 基於用戶的協同過濾推薦 基於用戶的協同過濾推薦的基本原理是，根據全部用戶對物品或者信息的偏好，發現與當前用戶口味和偏好類似的「鄰居」用戶羣，在通常的應用中是採用計算「K- 鄰居」的算法；而後，基於這 K 個鄰居的歷史偏好信息，爲當前用戶進行推薦。下圖 4 給出了原理圖。

圖 4. 基於用戶的協同過濾推薦機制的基本原理

上圖示意出基於用戶的協同過濾推薦機制的基本原理，假設用戶 A 喜歡物品 A，物品 C，用戶 B 喜歡物品 B，用戶 C 喜歡物品 A ，物品 C 和物品 D；從這些用戶的歷史喜愛信息中，咱們能夠發現用戶 A 和用戶 C 的口味和偏好是比較相似的，同時用戶 C 還喜歡物品 D，那麼咱們能夠推斷用戶 A 可能也喜歡物品 D，所以能夠將物品 D 推薦給用戶 A。基於用戶的協同過濾推薦機制和基於人口統計學的推薦機制都是計算用戶的類似度，並基於「鄰居」用戶羣計算推薦，但它們所不一樣的是如何計算用戶的類似度，基於人口統計學的機制只考慮用戶自己的特徵，而基於用戶的協同過濾機制但是在用戶的歷史偏好的數據上計算用戶的類似度，它的基本假設是，喜歡相似物品的用戶可能有相同或者類似的口味和偏好。 基於項目的協同過濾推薦 基於項目的協同過濾推薦的基本原理也是相似的，只是說它使用全部用戶對物品或者信息的偏好，發現物品和物品之間的類似度，而後根據用戶的歷史偏好信息，將相似的物品推薦給用戶，圖 5 很好的詮釋了它的基本原理。假設用戶 A 喜歡物品 A 和物品 C，用戶 B 喜歡物品 A，物品 B 和物品 C，用戶 C 喜歡物品 A，從這些用戶的歷史喜愛能夠分析出物品 A 和物品 C 時比較相似的，喜歡物品 A 的人都喜歡物品 C，基於這個數據能夠推斷用戶 C 頗有可能也喜歡物品 C，因此係統會將物品 C 推薦給用戶 C。與上面講的相似，基於項目的協同過濾推薦和基於內容的推薦其實都是基於物品類似度預測推薦，只是類似度計算的方法不同，前者是從用戶歷史的偏好推斷，然後者是基於物品自己的屬性特徵信息。

圖 5. 基於項目的協同過濾推薦機制的基本原理

同時協同過濾，在基於用戶和基於項目兩個策略中應該如何選擇呢？其實基於項目的協同過濾推薦機制是 Amazon 在基於用戶的機制上改良的一種策略，由於在大部分的 Web 站點中，物品的個數是遠遠小於用戶的數量的，並且物品的個數和類似度相對比較穩定，同時基於項目的機制比基於用戶的實時性更好一些。但也不是全部的場景都是這樣的狀況，能夠設想一下在一些新聞推薦系統中，也許物品，也就是新聞的個數可能大於用戶的個數，並且新聞的更新程度也有很快，因此它的形似度依然不穩定。因此，其實能夠看出，推薦策略的選擇其實和具體的應用場景有很大的關係。 基於模型的協同過濾推薦 基於模型的協同過濾推薦就是基於樣本的用戶喜愛信息，訓練一個推薦模型，而後根據實時的用戶喜愛的信息進行預測，計算推薦。基於協同過濾的推薦機制是現今應用最爲普遍的推薦機制，它有如下幾個顯著的優勢：

它不須要對物品或者用戶進行嚴格的建模，並且不要求物品的描述是機器可理解的，因此這種方法也是領域無關的。
這種方法計算出來的推薦是開放的，能夠共用他人的經驗，很好的支持用戶發現潛在的興趣偏好

而它也存在如下幾個問題：

方法的核心是基於歷史數據，因此對新物品和新用戶都有「冷啓動」的問題。
推薦的效果依賴於用戶歷史偏好數據的多少和準確性。
在大部分的實現中，用戶歷史偏好是用稀疏矩陣進行存儲的，而稀疏矩陣上的計算有些明顯的問題，包括可能少部分人的錯誤偏好會對推薦的準確度有很大的影響等等。
對於一些特殊品味的用戶不能給予很好的推薦。
因爲以歷史數據爲基礎，抓取和建模用戶的偏好後，很難修改或者根據用戶的使用演變，從而致使這個方法不夠靈活。

混合的推薦機制

在現行的 Web 站點上的推薦每每都不是單純只採用了某一種推薦的機制和策略，他們每每是將多個方法混合在一塊兒，從而達到更好的推薦效果。關於如何組合各個推薦機制，這裏講幾種比較流行的組合方法。

加權的混合（Weighted Hybridization）: 用線性公式（linear formula）將幾種不一樣的推薦按照必定權重組合起來，具體權重的值須要在測試數據集上反覆實驗，從而達到最好的推薦效果。
切換的混合（Switching Hybridization）：前面也講到，其實對於不一樣的狀況（數據量，系統運行情況，用戶和物品的數目等），推薦策略可能有很大的不一樣，那麼切換的混合方式，就是容許在不一樣的狀況下，選擇最爲合適的推薦機制計算推薦。
分區的混合（Mixed Hybridization）：採用多種推薦機制，並將不一樣的推薦結果分不一樣的區顯示給用戶。其實，Amazon，噹噹網等不少電子商務網站都是採用這樣的方式，用戶能夠獲得很全面的推薦，也更容易找到他們想要的東西。
分層的混合（Meta-Level Hybridization）: 採用多種推薦機制，並將一個推薦機制的結果做爲另外一個的輸入，從而綜合各個推薦機制的優缺點，獲得更加準確的推薦。

總結

在網絡數據爆炸的年代，如何讓用戶更快的找到想要的數據，如何讓用戶發現本身潛在的興趣和需求，不管是對於電子商務仍是社會網絡的應用都是相當重要的。推薦引擎的出現，使得這個問題愈來愈被你們關注。但對大多數人來說，也許還在驚歎它爲何老是能猜到你到底想要些什麼。推薦引擎的魔力在於你不清楚在這個推薦背後，引擎到底記錄和推理了些什麼。經過這篇綜述性的文章，你能夠了解，其實推薦引擎只是默默的記錄和觀察你的一舉一動，而後再借由全部用戶產生的海量數據分析和發現其中的規律，進而慢慢的瞭解你，你的需求，你的習慣，並默默的無聲息的幫助你快速的解決你的問題，找到你想要的東西。其實，回頭想一想，不少時候，推薦引擎比你更瞭解你本身。經過第一篇文章，相信你們對推薦引擎有一個清晰的第一印象，本系列的下一篇文章將深刻介紹基於協同過濾的推薦策略。在現今的推薦技術和算法中，最被你們普遍承認和採用的就是基於協同過濾的推薦方法。它以其方法模型簡單，數據依賴性低，數據方便採集，推薦效果較優等多個優勢成爲大衆眼裏的推薦算法「No.1」。本文將帶你深刻了解協同過濾的祕密，並給出基於 Apache Mahout 的協同過濾算法的高效實現。Apache Mahout 是 ASF 的一個較新的開源項目，它源於 Lucene，構建在 Hadoop 之上，關注海量數據上的機器學習經典算法的高效實現。感謝你們對本系列的關注和支持。

Reference: http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html?ca=drs-