推薦系統中的類似度度量

時間 2019-11-12

標籤推薦系統類似度量简体版

原文原文鏈接

類似度計算是數據挖掘，推薦引擎中的最基本問題，例如在推薦系統(Recommender Systems，簡稱RSs)中計算帶推薦物品(Item)類似度，或是用戶(User)之間的類似度以期得到興趣口味(Taste)類似的用戶時，均須要使用到類似度計算技術。常用的類似度計算方式較多，且各有特色，如下就列出經常使用的類似度計算方式，原理，以及其優缺點。java

類似度計算和距離計算是相似問題，以前粗略看了下Mahout(apache分佈式數據挖掘項目)中的實現對各計算方式進行分析。結合在實際項目中的應用，介紹幾類經常使用的距離計算公式。apache

Cosine

最常使用的類似度計算方法，並且整體效果較好，能夠說是簡單實用。數學描述以下：分佈式

其中是X的模。ide

例如，在推薦引擎中，使用 r_ui表示User u對Item i的打分，則可使用u對各Item打的分數的向量做爲User u的興趣愛好，則User u和User v之間的cosine類似度計算方式爲：ui

其中 I_ui 表示User u,v均投票了的item。idea

Cosine的幾何意義爲向量空間中，將待計算類似度的向量均歸一化爲長度爲1的向量，全部被歸一化後的向量 ov的v點座標均落在以向量0爲球心，半徑爲1的球面上，使用二向量的夾角度量兩者類似度，夾角越小，類似程度越高。排序

在文本處理過程當中，cosine度量方式表現效果都會比較好。ci

Mahout中參見CosineDistanceMeasure.java字符串

Pearson Correlation

用於度量線性關係最經常使用的方法，定義爲協方差，σ爲標準差，則Pearson相關係數爲：get

例如，使用表示User u對Item的打分，則User u，v之間的類似度計算方式爲：

其中表示User u,v均投票了的item，與COS的區別是考慮了投票的均值，且分母考慮的是User u,v共同投票的Item。

不少時候，針對User的PC要比針對Item的PC效果較好，由於針對User的PC至關於對各個用戶的投票Scales作了一箇中心化，避免各用戶對相同Item投票時，由於投票習慣不同而致使的差別。例如：投票分值分[1，5]檔，有些人投4表示很是喜歡，而有些人會投5表述相同的喜愛程度。

PC的缺點以下：

如任意User僅投票了一個元素，則沒法使用該公式計算。
如任意User的每一個投票分值均同樣，則沒法使用該公式計算。
計算時沒有考慮投票的總數量，例如User u投票了200 Items，而v僅投票了2Items，則最後有可能仍是v與待比較User近似。

另外PC也常常用做序列趨勢的相近程度度量。在檢索，推薦系統中常常須要考慮檢索結果及推薦商品的季節因素，例如根據往年某一商品的季節特徵，預測相似產品的接下來的流行程度。下圖分別爲檢索詞‘吳莫愁’，‘梁博’，‘滑雪’在過去3個月的搜索PV，使用PC度量，很容易獲得檢索詞‘吳莫愁’與‘梁博’的類似度遠遠大於‘梁博’與‘滑雪’的類似度。

Mahout中參見PearsonCorrleationSimilarity.java