協同過濾推薦算法的原理及實現

時間 2019-12-16

原文原文鏈接

1、協同過濾算法的原理及實現

協同過濾推薦算法是誕生最先，而且較爲著名的推薦算法。主要的功能是預測和推薦。算法經過對用戶歷史行爲數據的挖掘發現用戶的偏好，基於不一樣的偏好對用戶進行羣組劃分並推薦品味類似的商品。協同過濾推薦算法分爲兩類，分別是基於用戶的協同過濾算法(user-based collaboratIve filtering)，和基於物品的協同過濾算法(item-based collaborative filtering)。簡單的說就是：人以類聚，物以羣分。下面咱們將分別說明這兩類推薦算法的原理和實現方法。

算法

1.基於用戶的協同過濾算法(user-based collaboratIve filtering)

基於用戶的協同過濾算法是經過用戶的歷史行爲數據發現用戶對商品或內容的喜歡(如商品購買，收藏，內容評論或分享)，並對這些喜愛進行度量和打分。根據不一樣用戶對相同商品或內容的態度和偏好程度計算用戶之間的關係。在有相同喜愛的用戶間進行商品推薦。簡單的說就是若是A,B兩個用戶都購買了x,y,z三本圖書，而且給出了5星的好評。那麼A和B就屬於同一類用戶。能夠將A看過的圖書w也推薦給用戶B。

數據結構

1.1尋找偏好類似的用戶

　咱們模擬了5個用戶對兩件商品的評分，來講明如何經過用戶對不一樣商品的態度和偏好尋找類似的用戶。在示例中，5個用戶分別對兩件商品進行了評分。這裏的分值可能表示真實的購買，也能夠是用戶對商品不一樣行爲的量化指標。例如，瀏覽商品的次數，向朋友推薦商品，收藏，分享，或評論等等。這些行爲均可以表示用戶對商品的態度和偏好程度。
網站

從表格中很難直觀發現5個用戶間的聯繫，咱們將5個用戶對兩件商品的評分用散點圖表示出來後，用戶間的關係就很容易發現了。在散點圖中，Y軸是商品1的評分，X軸是商品2的評分，經過用戶的分佈狀況能夠發現，A,C,D三個用戶距離較近。用戶A(3.3 6.5)和用戶C(3.6 6.3)，用戶D(3.4 5.8)對兩件商品的評分較爲接近。而用戶E和用戶B則造成了另外一個羣體。

.net

散點圖雖然直觀，但沒法投入實際的應用，也不能準確的度量用戶間的關係。所以咱們須要經過數字對用戶的關係進行準確的度量，並依據這些關係完成商品的推薦。3d

1.2歐幾里德距離評價

歐幾里德距離評價是一個較爲簡單的用戶關係評價方法。原理是經過計算兩個用戶在散點圖中的距離來判斷不一樣的用戶是否有相同的偏好。如下是歐幾里德距離評價的計算公式。rest

　　經過公式咱們得到了5個用戶相互間的歐幾里德係數，也就是用戶間的距離。係數越小表示兩個用戶間的距離越近，偏好也越是接近。不過這裏有個問題，過小的數值可能沒法準確的表現出不一樣用戶間距離的差別，所以咱們對求得的係數取倒數，使用戶間的距離約接近，數值越大。在下面的表格中，能夠發現，用戶A&C用戶A&D和用戶C&D距離較近。同時用戶B&E的距離也較爲接近。與咱們前面在散點圖中看到的狀況一致。
blog

1.3皮爾遜相關度評價

皮爾遜相關度評價是另外一種計算用戶間關係的方法。他比歐幾里德距離評價的計算要複雜一些，但對於評分數據不規範時皮爾遜相關度評價可以給出更好的結果。如下是一個多用戶對多個商品進行評分的示例。這個示例比以前的兩個商品的狀況要複雜一些，但也更接近真實的狀況。咱們經過皮爾遜相關度評價對用戶進行分組，並推薦商品。
排序

1.4皮爾遜相關係數

皮爾遜相關係數的計算公式以下，結果是一個在-1與1之間的係數。該係數用來講明兩個用戶間聯繫的強弱程度。token

公式一：ip

公式二：

公式三：

公式四：

　相關係數的分類

　　0.8-1.0 極強相關
　　0.6-0.8 強相關
　　0.4-0.6 中等程度相關
　　0.2-0.4 弱相關
　　0.0-0.2 極弱相關或無相關
　經過計算5個用戶對5件商品的評分咱們得到了用戶間的類似度數據。這裏能夠看到用戶A&B，C&D，C&E和D&E之間類似度較高。下一步，咱們能夠依照類似度對用戶進行商品推薦。

爲類似的用戶提供推薦物品

　　爲用戶C推薦商品

　　當咱們須要對用戶C推薦商品時，首先咱們檢查以前的類似度列表，發現用戶C和用戶D和E的類似度較高。換句話說這三個用戶是一個羣體，擁有相同的偏好。所以，咱們能夠對用戶C推薦D和E的商品。但這裏有一個問題。咱們不能直接推薦前面商品1-商品5的商品。由於這這些商品用戶C以及瀏覽或者購買過了。不能重複推薦。所以咱們要推薦用戶C尚未瀏覽或購買過的商品。

　　加權排序推薦

　　咱們提取了用戶D和用戶E評價過的另外5件商品A—商品F的商品。並對不一樣商品的評分進行類似度加權。按加權後的結果對5件商品進行排序，而後推薦給用戶C。這樣，用戶C就得到了與他偏好類似的用戶D和E評價的商品。而在具體的推薦順序和展現上咱們依照用戶D和用戶E與用戶C的類似度進行排序。

以上是基於用戶的協同過濾算法。這個算法依靠用戶的歷史行爲數據來計算相關度。也就是說必需要有必定的數據積累(冷啓動問題)。對於新網站或數據量較少的網站，還有一種方法是基於物品的協同過濾算法。

2.基於物品的協同過濾算法(item-based collaborative filtering)

基於物品的協同過濾算法與基於用戶的協同過濾算法很像，將商品和用戶互換。經過計算不一樣用戶對不一樣物品的評分得到物品間的關係。基於物品間的關係對用戶進行類似物品的推薦。這裏的評分表明用戶對商品的態度和偏好。簡單來講就是若是用戶A同時購買了商品1和商品2，那麼說明商品1和商品2的相關度較高。當用戶B也購買了商品1時，能夠推斷他也有購買商品2的需求。

1.尋找類似的物品

　　表格中是兩個用戶對5件商品的評分。在這個表格中咱們用戶和商品的位置進行了互換，經過兩個用戶的評分來得到5件商品之間的類似度狀況。單從表格中咱們依然很難發現其中的聯繫，所以咱們選擇經過散點圖進行展現。

在散點圖中，X軸和Y軸分別是兩個用戶的評分。5件商品按照所獲的評分值分佈在散點圖中。咱們能夠發現，商品1,3,4在用戶A和B中有着近似的評分，說明這三件商品的相關度較高。而商品5和2則在另外一個羣體中。

歐幾里德距離評價

　　在基於物品的協同過濾算法中，咱們依然可使用歐幾里德距離評價來計算不一樣商品間的距離和關係。如下是計算公式。

　　經過歐幾里德係數能夠發現，商品間的距離和關係與前面散點圖中的表現一致，商品1,3,4距離較近關係密切。商品2和商品5距離較近。

皮爾遜相關度評價

　　咱們選擇使用皮爾遜相關度評價來計算多用戶與多商品的關係計算。下面是5個用戶對5件商品的評分表。咱們經過這些評分計算出商品間的相關度。

皮爾遜相關度計算公式

　　經過計算能夠發現，商品1&2，商品3&4，商品3&5和商品4&5類似度較高。下一步咱們能夠依據這些商品間的相關度對用戶進行商品推薦。

爲用戶提供基於類似物品的推薦

　　這裏咱們遇到了和基於用戶進行商品推薦相同的問題，當須要對用戶C基於商品3推薦商品時，須要一張新的商品與已有商品間的類似度列表。在前面的類似度計算中，商品3與商品4和商品5類似度較高，所以咱們計算並得到了商品4,5與其餘商品的類似度列表。

如下是經過計算得到的新商品與已有商品間的類似度數據。

加權排序推薦

　　這裏是用戶C已經購買過的商品4,5與新商品A,B,C直接的類似程度。咱們將用戶C對商品4,5的評分做爲權重。對商品A,B,C進行加權排序。用戶C評分較高而且與之類似度較高的商品被優先推薦。

2、基於物品的協同過濾算法詳解

Item-Based Collaborative Filtering Recommendation Algorithms」這篇是推薦領域比較經典的論文，如今不少流行的推薦算法都是在這篇論文提出的算法的基礎上進行改進的。

1、協同過濾算法描述

推薦系統應用數據分析技術，找出用戶最可能喜歡的東西推薦給用戶，如今不少電子商務網站都有這個應用。目前用的比較多、比較成熟的推薦算法是協同過濾（Collaborative Filtering，簡稱CF）推薦算法，CF的基本思想是根據用戶以前的喜愛以及其餘興趣相近的用戶的選擇來給用戶推薦物品

如圖1所示，在CF中，用m×n的矩陣表示用戶對物品的喜愛狀況，通常用打分表示用戶對物品的喜愛程度，分數越高表示越喜歡這個物品，0表示沒有買過該物品。圖中行表示一個用戶，列表示一個物品，Uij表示用戶i對物品j的打分狀況。CF分爲兩個過程，一個爲預測過程，另外一個爲推薦過程。預測過程是預測用戶對沒有購買過的物品的可能打分值，推薦是根據預測階段的結果推薦用戶最可能喜歡的一個或Top-N個物品。

2、User-based算法與Item-based算法對比

CF算法分爲兩大類，一類爲基於memory的（Memory-based），另外一類爲基於Model的（Model-based），User-based和Item-based算法均屬於Memory-based類型，具體細分類能夠參考wikipedia的說明。

User-based的基本思想是若是用戶A喜歡物品a，用戶B喜歡物品a、b、c，用戶C喜歡a和c，那麼認爲用戶A與用戶B和C類似，由於他們都喜歡a，而喜歡a的用戶同時也喜歡c，因此把c推薦給用戶A。該算法用最近鄰居（nearest-neighbor）算法找出一個用戶的鄰居集合，該集合的用戶和該用戶有類似的喜愛，算法根據鄰居的偏好對該用戶進行預測。

User-based算法存在兩個重大問題：

1. 數據稀疏性。一個大型的電子商務推薦系統通常有很是多的物品，用戶可能買的其中不到1%的物品，不一樣用戶之間買的物品重疊性較低，致使算法沒法找到一個用戶的鄰居，即偏好類似的用戶。

2. 算法擴展性。最近鄰居算法的計算量隨着用戶和物品數量的增長而增長，不適合數據量大的狀況使用。

Iterm-based的基本思想是預先根據全部用戶的歷史偏好數據計算物品之間的類似性，而後把與用戶喜歡的物品相相似的物品推薦給用戶。仍是以以前的例子爲例，能夠知道物品a和c很是類似，由於喜歡a的用戶同時也喜歡c，而用戶A喜歡a，因此把c推薦給用戶A。

由於物品直接的類似性相對比較固定，因此能夠預先在線下計算好不一樣物品之間的類似度，把結果存在表中，當推薦時進行查表，計算用戶可能的打分值，能夠同時解決上面兩個問題。

3、Item-based算法詳細過程

（1）類似度計算

Item-based算法首選計算物品之間的類似度，計算類似度的方法有如下幾種：

1. 基於餘弦（Cosine-based）的類似度計算，經過計算兩個向量之間的夾角餘弦值來計算物品之間的類似性，公式以下：

其中分子爲兩個向量的內積，即兩個向量相同位置的數字相乘。

2. 基於關聯（Correlation-based）的類似度計算，計算兩個向量之間的Pearson-r關聯度，公式以下：

其中表示用戶u對物品i的打分，表示第i個物品打分的平均值。

3. 調整的餘弦（Adjusted Cosine）類似度計算，因爲基於餘弦的類似度計算沒有考慮不一樣用戶的打分狀況，可能有的用戶偏向於給高分，而有的用戶偏向於給低分，該方法經過減去用戶打分的平均值消除不一樣用戶打分習慣的影響，公式以下：

其中表示用戶u打分的平均值。

（2）預測值計算

根據以前算好的物品之間的類似度，接下來對用戶未打分的物品進行預測，有兩種預測方法：

1. 加權求和。

用過對用戶u已打分的物品的分數進行加權求和，權值爲各個物品與物品i的類似度，而後對全部物品類似度的和求平均，計算獲得用戶u對物品i打分，公式以下：

其中爲物品i與物品N的類似度，爲用戶u對物品N的打分。

2. 迴歸。

和上面加權求和的方法相似，但迴歸的方法不直接使用類似物品N的打分值，由於用餘弦法或Pearson關聯法計算類似度時存在一個誤區，即兩個打分向量可能相距比較遠（歐氏距離），但有可能有很高的類似度。由於不一樣用戶的打分習慣不一樣，有的偏向打高分，有的偏向打低分。若是兩個用戶都喜歡同樣的物品，由於打分習慣不一樣，他們的歐式距離可能比較遠，但他們應該有較高的類似度。在這種狀況下用戶原始的類似物品的打分值進行計算會形成糟糕的預測結果。經過用線性迴歸的方式從新估算一個新的值，運用上面一樣的方法進行預測。從新計算的方法以下：

其中物品N是物品i的類似物品，和經過對物品N和i的打分向量進行線性迴歸計算獲得，爲迴歸模型的偏差。具體怎麼進行線性迴歸文章裏面沒有說明，須要查閱另外的相關文獻。