推薦系統中物品類似度計算

此次介紹Item(User)類似度的計算方法,其普遍運用於基於鄰域的協同過濾算法的推薦系統。簡而言之,基於鄰域,就是基於相鄰的元素進行推薦,而相鄰元素的獲得過程就是類似度的計算過程。html

對於空間上的點來講:傳統機器學習模型中KNN的距離度量方法(如歐式距離等),距離越近的點咱們把他們歸爲一類,也能夠說他們更類似。python

對於空間上的向量來講:方向更相同,向量越類似,這就是cosine度量方法的原理。git

問題來了,咱們獲得不一樣物品/用戶的類似度有什麼用呢❓github

🙋回答:從ItemCF的角度來講,在獲得物品之間的類似度\(w_{ij}\)(物品 i 和 j )以後,經過以下公式能夠計算用戶u對一個物品 j 的興趣:算法

\(p_{uj}=\sum\limits_{i \in N(u)\cap S(j,k)}w_{ji}r_{ui}\tag{0}\)api

這裏N(u)是用戶喜歡的物品的集合,S(j, k)是物品j最類似的K個物品的集合,\(r_{ui}\)是用戶u對物品i的興趣程度。機器學習

Jaccard公式

這是一個在《推薦系統實踐》中看到的公式,這裏咱們研究兩個用戶users的興趣類似度:給定用戶u和用戶v,令N(u),N(v)分別表示用戶u,v曾經有過正反饋的物品集合。那麼用戶u和v的類似度爲:函數

\(\omega_{uv}=\frac{|N(u)\cap N(v)|}{|N(u)\cup N(v)|} \tag{1}\)性能

上述公式簡單表述就是:\(\frac{兩個用戶都感興趣物品數目}{兩個用戶中只要有一個用戶感興趣的物品數目}\)學習

it’s the ratio of the size of the intersection to the size of the union of their preferred items

這是一個忽略了Preference value的類似度計算方式。

使用這個度量方法一般有兩種狀況:

  1. Data中只有boolean值,並無rating值;

  2. 你認爲數據的噪聲不是很大。

cosine公式

與上述公式相同,只是在分母中加了個根號,這裏咱們研究物品items的類似度:

\(\omega_{ij}=\frac{|N(i)\cap N(j)|}{\sqrt{|N(i)\cup N(j)|}}\tag{2}\)

這裏N(i)和N(j)分別表示喜歡物品i 和物品j 的人數。

到這裏爲止,咱們研究的對象忽略的rating的具體分數,若是對象換作是評分,如電影評分(分數ratings有:1,2,3,4,5🌟),那麼相應的cosine公式變換爲:

\(\text{cosine_sim}(i, j) = \frac{\sum\limits_{u \in U_{ij}} r_{ui} \cdot r_{uj}}{\sqrt{\sum\limits_{u \in U_{ij}} r_{ui}^2} \cdot\sqrt{\sum\limits_{u \in U_{ij}} r_{uj}^2}}\tag{3}\)

其中\(r_{ui}\)\(r_{uj}\)分別表示用戶 u 對物品 i 和 j 的評分,\(U_{ij}\)表明同時喜歡物品 i 和 j 的用戶集合。

如下爲surprise庫的cosine函數源碼和分析:

def cosine(n_x, yr, min_support):
    
    ### 此處省略了一些東西
    
    for y, y_ratings in iteritems(yr):
        ### xi和xj分別表示物品i和j
        ### 如下爲生成(3)式中的分母和分子
        for xi, ri in y_ratings:
            for xj, rj in y_ratings:
                freq[xi, xj] += 1
                prods[xi, xj] += ri * rj
                sqi[xi, xj] += ri**2
                sqj[xi, xj] += rj**2
                
    ### 如下爲使用(3)式進行計算            
    for xi in range(n_x):
        sim[xi, xi] = 1
        for xj in range(xi + 1, n_x):
            if freq[xi, xj] < min_sprt:
                sim[xi, xj] = 0
            else:
                denum = np.sqrt(sqi[xi, xj] * sqj[xi, xj])
                sim[xi, xj] = prods[xi, xj] / denum

            sim[xj, xi] = sim[xi, xj]

    return sim  
    ### 返回的結果sim是一個對稱矩陣,行列的index表示對應每一個物品item,矩陣元素表示行列對應物品的類似度

Pearson Correlation(PC)

若是在(3)式的基礎上進行去均值的話,那麼就獲得了(4)式:

\(\text{pearson_sim}(i, j) = \frac{ \sum\limits_{u \in U_{ij}}(r_{ui} - \mu_i) \dot (r_{uj} - \mu_{j})} {\sqrt{\sum\limits_{u\in U_{ij}} (r_{ui} - \mu_i)^2} \cdot \sqrt{\sum\limits_{u \in U_{ij}} (r_{uj} - \mu_{j})^2} }\tag{4}\)

注意一點,這裏的均值計算只考慮到同時喜歡物品i和j的用戶集合\(U_{ij}\),對於其餘不涉及物品i和j的用戶,不要加到均值計算的過程當中。

一般來講,不一樣用戶👨評分標準的差異要比不一樣物品評分標準差異要高不少(The differences in the rating scales of individual users are often more pronounced than the differences in ratings given to individual items),由於不一樣人的評分標準不同,對於某人來講,他評分的全部物品分數都偏低。可是對於一個物品來講,不一樣物品之間所依據的評分標準都是大衆評價的結果,這是一個被不一樣標準泛化了的標準。

因此,當咱們計算物品類似度\(\text{pearson_sim}(i, j)\)時,減去的均值應該針對於用戶,而不是物品。因此,PC能夠優化爲AC(Adjusted):

\(\text{ adjusted_sim}(i, j) = \frac{ \sum\limits_{u \in U_{ij}}(r_{ui} - \mu_u) \dot (r_{uj} - \mu_{u})} {\sqrt{\sum\limits_{u\in U_{ij}} (r_{ui} - \mu_u)^2} \cdot \sqrt{\sum\limits_{u \in U_{ij}} (r_{uj} - \mu_{u})^2} }\tag{5}\)

均方差(MSD)

仍然考慮物品i和j的類似度,MSD考慮的角度爲同時喜歡物品i和j的用戶對於這兩個物品的評分差距程度:

\(\text{msd}(i, j) = \frac{1}{|U_{ij}|} \cdot \sum\limits_{u \in U_{ij}} (r_{ui} - r_{uj})^2\tag{6}\)

(6)式表示均方差,值越小,物品i和j類似度越大。爲了與以前的類似度表示一致(值越大,物品類似度越大),定義類似度爲:

$ \text{msd_sim}(i,j) = \frac{1}{\text{msd}(i,j) + 1}\tag{7}$

一些考慮🤔

Accounting for significance

對於推薦系統來講,考慮到用戶的數量,評分數據是至關稀疏的。上述方法獲得的全部類似度權重一般只使用了很小一部分的評分。舉個例子,假設兩部很小衆的電影正好同時只被兩我的喜歡,運用上面的方法,咱們獲得這兩部影片類似度很高。然而實際狀況可能並非這樣,這可能咱們取的樣本太少的緣故。因此,有這樣一個思想很重要,即:當計算只用到很小範圍的評分時,減少這個計算的類似度的權重

Reduce the magnitude of a similarity weight when this weight is computed using only a few ratings

咱們能夠給計算出來的類似度一個懲罰(penalized),所用的評分集合\(U_{ij}\)越小,懲罰越大:

\(w_{ij}=\frac{min\{|U_{ij}|, \gamma\}}{\gamma} \times w_{ij}\tag{8}\)

當評分的用戶集合大到必定程度時,懲罰消失。

Accounting for variance

活躍度跟高的用戶一般會評分不少物品,覆蓋範圍也更廣,也就是方差(var)越大,他們的評分多,可是貢獻度卻要少。

爲何呢?假如一我的很是愛購物,在淘寶上瘋狂買各類各樣的東西,那麼他的一個購買跟物品種類的相關性就很低。一樣的,對於物品來講,如電影《教父》,被不少人喜歡,那麼根據它也很難找到與他類似的電影。簡單來講:活躍用戶對物品類似度的貢獻應該小於不活躍用戶

那麼,咱們引入一個參數:

\(\lambda_{u} = log\frac{|I|}{|I_{u}|}\tag{9}\)

這個參數\(\lambda_{u}\)定義爲用戶u的活躍程度的倒數,\(I\)爲全部物品,\(I_{u}\)爲用戶u有操做的物品,二者之商越大,表明活躍程度越低,即權重越高。

將該參數運用到Pearson中,即:

\(\text{pearson_sim}(i, j) = \frac{ \sum\limits_{u \in U_{ij}}\lambda_{u} (r_{ui} - \mu_i) \dot (r_{uj} - \mu_{j})} {\sqrt{\sum\limits_{u\in U_{ij}} \lambda_{u} (r_{ui} - \mu_i)^2} \cdot \sqrt{\sum\limits_{u \in U_{ij}} \lambda_{u} (r_{uj} - \mu_{j})^2} }\tag{10}\)

通常化,咱們能夠把Pearson-baseline correlation定義以下:

\(\begin{align}\begin{aligned}\text{pearson_baseline_shrunk_sim}(u, v) = \frac{|I_{uv}| - 1} {|I_{uv}| - 1 + \text{shrinkage}} \cdot \omega_{uv}\\\text{pearson_baseline_shrunk_sim}(i, j)= \frac{|U_{ij}| - 1} {|U_{ij}| - 1 + \text{shrinkage}} \cdot \omega_{ij}\end{aligned}\end{align}\)

這也是surprise中pearson_baseline()的計算方法。👌

性能比較

下面使用surprise庫對上面介紹的幾種類似度度量進行比較:

import pandas as pd
import numpy as np

from surprise.prediction_algorithms.knns import KNNBasic
from surprise import Dataset, Reader
from surprise.model_selection import train_test_split

一、讀取數據,預處理

爲了方便,這裏只使用ml-latest_small的movielens數據集進行操做

reader = Reader(rating_scale=(1, 5), line_format='user item rating timestamp')
df_data = pd.read_csv('./data/ml-latest-small/ratings.csv', usecols=['userId','movieId','rating'])
data = Dataset.load_from_df(df_data, reader)

trainset, testset = train_test_split(data, test_size=0.2)

二、創建模型

創建KNN基於鄰域的模型,其預測函數爲(0)式的一個優化,即:

\(\hat{r}_{ui} = \frac{\sum\limits_{j \in N^k_u(i)} \text{sim}(i, j) \cdot r_{uj}}{\sum\limits_{j \in N^k_u(j)} \text{sim}(i, j)}\tag{11}\)

咱們分別使用cosine, msd, pearson以及pearson-baseline做爲類似度度量進行比較,分別獲得其precision和recall(這裏使用Top5做爲metric)

PS:precision_recall_at_k()函數見這裏

sim = ['cosine', 'msd', 'pearson','pearson_baseline']

for s in sim:
    params = {'name': s, 'user_based': False}
    knn = KNNBasic(k=40, min_k=1, sim_options=params)
    knn.fit(trainset)
    predictions = knn.test(testset)
    precisions, recalls = precision_recall_at_k(predictions, k=5, threshold=3.5)
    print('Precision:', sum(prec for prec in precisions.values()) / len(precisions))
    print('Recall:', sum(rec for rec in recalls.values()) / len(recalls))
    print('')
Precision Recall
cosine 0.765 0.343
msd 0.807 0.367
pearson 0.729 0.346
pearson-base 0.776 0.391

因爲數據量很小,上述的評測指數僅做參考

最近天氣有點熱,三伏天得了空調病,最後發現是頸椎引發的問題,期間還拔了顆頑固的智齒,也算是一波三折了。

Reference:

  1. 《推薦系統實踐》. 項亮
  2. http://surprise.readthedocs.io/en/stable/similarities.html
  3. 《Recommender Systems Handbook》.Francesco Ricci · Lior Rokach · Bracha Shapira · Paul B. Kantor
  4. 《Mahout in Action》
相關文章
相關標籤/搜索