協同過濾推薦算法

時間 2019-11-08

原文原文鏈接

協同過濾（Collaborative Filtering，簡稱CF）推薦算法是誕生最先，而且較爲著名的推薦算法。主要的功能是預測和推薦。算法經過對用戶歷史行爲數據的挖掘發現用戶的偏好，基於不一樣的偏好對用戶進行羣組劃分並推薦品味類似的商品。協同過濾推薦算法分爲兩類，分別是基於用戶的協同過濾算法(user-based collaboratIve filtering)，和基於物品的協同過濾算法(item-based collaborative filtering)。簡單的說就是：人以類聚，物以羣分。下面咱們將分別說明這兩類推薦算法的原理和實現方法。算法

1、基於用戶的協同過濾算法(user-based collaboratIve filtering)網站

　　基於用戶的協同過濾算法是經過用戶的歷史行爲數據發現用戶對商品或內容的喜歡(如商品購買，收藏，內容評論或分享)，並對這些喜愛進行度量和打分。根據不一樣用戶對相同商品或內容的態度和偏好程度計算用戶之間的關係。在有相同喜愛的用戶間進行商品推薦。簡單的說就是若是A,B兩個用戶都購買了x,y,z三本圖書，而且給出了5星的好評。那麼A和B就屬於同一類用戶。能夠將A看過的圖書w也推薦給用戶B。spa

一、尋找偏好類似的用戶.net

　　咱們模擬了5個用戶對兩件商品的評分，來講明如何經過用戶對不一樣商品的態度和偏好尋找類似的用戶。在示例中，5個用戶分別對兩件商品進行了評分。這裏的分值可能表示真實的購買，也能夠是用戶對商品不一樣行爲的量化指標。例如，瀏覽商品的次數，向朋友推薦商品，收藏，分享，或評論等等。這些行爲均可以表示用戶對商品的態度和偏好程度。3d

從表格中很難直觀發現5個用戶間的聯繫，咱們將5個用戶對兩件商品的評分用散點圖表示出來後，用戶間的關係就很容易發現了。在散點圖中，Y軸是商品1的評分，X軸是商品2的評分，經過用戶的分佈狀況能夠發現，A,C,D三個用戶距離較近。用戶A(3.3 6.5)和用戶C(3.6 6.3)，用戶D(3.4 5.8)對兩件商品的評分較爲接近。而用戶E和用戶B則造成了另外一個羣體。code

散點圖雖然直觀，但沒法投入實際的應用，也不能準確的度量用戶間的關係。所以咱們須要經過數字對用戶的關係進行準確的度量，並依據這些關係完成商品的推薦。blog

歐幾里德距離評價排序

　　歐幾里德距離評價是一個較爲簡單的用戶關係評價方法。原理是經過計算兩個用戶在散點圖中的距離來判斷不一樣的用戶是否有相同的偏好。如下是歐幾里德距離評價的計算公式。ip

　　經過公式咱們得到了5個用戶相互間的歐幾里德係數，也就是用戶間的距離。係數越小表示兩個用戶間的距離越近，偏好也越是接近。不過這裏有個問題，過小的數值可能沒法準確的表現出不一樣用戶間距離的差別，所以咱們對求得的係數取倒數，使用戶間的距離約接近，數值越大。在下面的表格中，能夠發現，用戶A&C用戶A&D和用戶C&D距離較近。同時用戶B&E的距離也較爲接近。與咱們前面在散點圖中看到的狀況一致。博客

皮爾遜相關度評價

　　皮爾遜相關度評價是另外一種計算用戶間關係的方法。他比歐幾里德距離評價的計算要複雜一些，但對於評分數據不規範時皮爾遜相關度評價可以給出更好的結果。如下是一個多用戶對多個商品進行評分的示例。這個示例比以前的兩個商品的狀況要複雜一些，但也更接近真實的狀況。咱們經過皮爾遜相關度評價對用戶進行分組，並推薦商品。

皮爾遜相關係數

　　皮爾遜相關係數的計算公式以下:

結果是一個在-1與1之間的係數。該係數用來講明兩個用戶間聯繫的強弱程度。

　　相關係數的分類:

0.8-1.0 極強相關
0.6-0.8 強相關
0.4-0.6 中等程度相關
0.2-0.4 弱相關
0.0-0.2 極弱相關或無相關

　　經過計算5個用戶對5件商品的評分咱們得到了用戶間的類似度數據。這裏能夠看到用戶A&B，C&D，C&E和D&E之間類似度較高。下一步，咱們能夠依照類似度對用戶進行商品推薦。

這裏同時給出計算皮爾遜係數的py腳本：

from math import sqrt


def multipl(a, b):
    sumofab = 0.0
    for i in range(len(a)):
        temp = a[i] * b[i]
        sumofab += temp
    return sumofab


def corrcoef(x, y):
    n = len(x)
    # 求和
    sum1 = sum(x)
    sum2 = sum(y)
    # 求乘積之和
    sumofxy = multipl(x, y)
    # 求平方和
    sumofx2 = sum([pow(i, 2) for i in x])
    sumofy2 = sum([pow(j, 2) for j in y])
    num = sumofxy - (float(sum1) * float(sum2) / n)
    # 計算皮爾遜相關係數
    den = sqrt((sumofx2 - float(sum1 ** 2) / n) * (sumofy2 - float(sum2 ** 2) / n))
    return num / den

x = [3.3, 6.5, 2.8, 3.4, 5.5]
y = [5.6, 3.3, 4.5, 5.2, 3.2]

print(corrcoef(x, y))

二、爲類似的用戶提供推薦物品

假設咱們要爲用戶C推薦：當咱們須要對用戶C推薦商品時，首先咱們檢查以前的類似度列表，發現用戶C和用戶D和E的類似度較高。換句話說這三個用戶是一個羣體，擁有相同的偏好。所以，咱們能夠對用戶C推薦D和E的商品。但這裏有一個問題。咱們不能直接推薦前面商品1-商品5的商品。由於這這些商品用戶C以及瀏覽或者購買過了。不能重複推薦。所以咱們要推薦用戶C尚未瀏覽或購買過的商品。

加權排序推薦

　　咱們提取了用戶D和用戶E評價過的另外5件商品A—商品F的商品。並對不一樣商品的評分進行類似度加權。按加權後的結果對5件商品進行排序，而後推薦給用戶C。這樣，用戶C就得到了與他偏好類似的用戶D和E評價的商品。而在具體的推薦順序和展現上咱們依照用戶D和用戶E與用戶C的類似度進行排序。

以上是基於用戶的協同過濾算法。這個算法依靠用戶的歷史行爲數據來計算相關度。也就是說必需要有必定的數據積累(冷啓動問題)。對於新網站或數據量較少的網站，還有一種方法是基於物品的協同過濾算法。

2、基於物品的協同過濾算法(item-based collaborative filtering)

基於物品的協同過濾算法與基於用戶的協同過濾算法很像，將商品和用戶互換。經過計算不一樣用戶對不一樣物品的評分得到物品間的關係。基於物品間的關係對用戶進行類似物品的推薦。這裏的評分表明用戶對商品的態度和偏好。簡單來講就是若是用戶A同時購買了商品1和商品2，那麼說明商品1和商品2的相關度較高。當用戶B也購買了商品1時，能夠推斷他也有購買商品2的需求。

一、尋找類似的物品

　　表格中是兩個用戶對5件商品的評分。在這個表格中咱們用戶和商品的位置進行了互換，經過兩個用戶的評分來得到5件商品之間的類似度狀況。單從表格中咱們依然很難發現其中的聯繫，所以咱們選擇經過散點圖進行展現。

在散點圖中，X軸和Y軸分別是兩個用戶的評分。5件商品按照所獲的評分值分佈在散點圖中。咱們能夠發現，商品1,3,4在用戶A和B中有着近似的評分，說明這三件商品的相關度較高。而商品5和2則在另外一個羣體中。

歐幾里德距離評價

　　在基於物品的協同過濾算法中，咱們依然可使用歐幾里德距離評價來計算不一樣商品間的距離和關係。如下是計算公式。

　　經過歐幾里德係數能夠發現，商品間的距離和關係與前面散點圖中的表現一致，商品1,3,4距離較近關係密切。商品2和商品5距離較近。

皮爾遜相關度評價

　　咱們選擇使用皮爾遜相關度評價來計算多用戶與多商品的關係計算。下面是5個用戶對5件商品的評分表。咱們經過這些評分計算出商品間的相關度。

皮爾遜相關度計算公式

　　經過計算能夠發現，商品1&2，商品3&4，商品3&5和商品4&5類似度較高。下一步咱們能夠依據這些商品間的相關度對用戶進行商品推薦。

二、爲用戶提供基於類似物品的推薦

　　這裏咱們遇到了和基於用戶進行商品推薦相同的問題，當須要對用戶C基於商品3推薦商品時，須要一張新的商品與已有商品間的類似度列表。在前面的類似度計算中，商品3與商品4和商品5類似度較高，所以咱們計算並得到了商品4,5與其餘商品的類似度列表。

如下是經過計算得到的新商品與已有商品間的類似度數據。

加權排序推薦

　　這裏是用戶C已經購買過的商品4,5與新商品A,B,C直接的類似程度。咱們將用戶C對商品4,5的評分做爲權重。對商品A,B,C進行加權排序。用戶C評分較高而且與之類似度較高的商品被優先推薦。

轉自博客：https://blog.csdn.net/yimingsilence/article/details/54934302 　　　　作略微修改　　　　

相關標籤/搜索

推薦算法

過濾

協同