推薦系統中的類似性

做者|Madhukara Putty
編譯|VK
來源|gitconnectedgit

你有沒有想過Netflix是如何推薦你想看的電影的?或者亞馬遜如何向你展現你以爲須要購買的產品?機器學習

很明顯,那些網站已經知道你喜歡看什麼或買什麼了。他們有一段在後臺運行的代碼,能夠在線收集用戶行爲數據,並預測單個用戶對特定內容或產品的好惡。這種系統被稱爲「推薦系統」。函數

通常來講,開發推薦系統有兩種方法。在一種方法中,系統考慮我的所消費內容的屬性。例如,若是你在Netflix上一天內看過黑客帝國,那麼Netflix知道你喜歡科幻電影,並且更有可能推薦其餘科幻電影。換言之,推薦是基於電影類型-科幻在這種狀況下。學習

在另外一種方法中,推薦系統會考慮與你口味類似的其餘人的偏好,並推薦他們看過的電影。與第一種方法不一樣的是,建議是基於多個用戶的行爲,而不是基於所消費內容的屬性。這種方法稱爲協同過濾。網站

在這個例子中,咱們認爲這兩種方法都更有可能向你推薦科幻電影,但它們會採起不一樣的方法得出結論。spa

效用矩陣

協同過濾的一個重要部分是識別具備類似偏好的觀衆。儘管Netflix採用多種方式收集用戶偏好信息,但爲了簡單起見,咱們假設它要求觀衆對電影進行1-5級評分。咱們還假設只有7部電影(哈利波特三部曲HP1~三、暮光之城TW和星球大戰三部曲SW1~3)須要審查,只有4位觀衆被要求對它們進行評分。.net

圖1顯示了咱們四個精心挑選的觀衆提供的評分。這樣一個表,產品在列上,用戶在行上,叫作效用矩陣。空白意味着有些用戶尚未給某些電影打分。3d

事實上,Netflix天天都有上千個節目被數以百萬計的觀衆消費。相應地,它的實際效用矩陣將有數百萬行,跨越數千列。此外,隨着系統不斷獲取用戶行爲信息,矩陣也會動態更新。blog

經過查看圖1中的效用矩陣,咱們能夠得出一些明顯的結論。資源

  • 觀衆A喜歡《哈利波特1》和《暮光之城》,但不喜歡《星球大戰1》

  • 觀衆B喜歡哈利波特三部曲的全部電影

  • 觀衆C喜歡《星球大戰1》和《星球大戰2》,但不喜歡《暮光之城》

  • 觀衆D不介意在無聊的一天裏看《哈利波特2》和《星球大戰2》,但這兩部電影都不是她的選擇

總而言之,觀衆A和觀衆B有着類似的品味,由於他們都喜歡《哈利波特1》。相比之下,觀衆A和C有不一樣的口味,由於觀衆A喜歡《暮光之城》,但觀衆C一點也不喜歡。一樣,A不喜歡星球大戰,但C喜歡。推薦系統須要一種方法來比較不一樣觀衆的評論,並告訴咱們他們的品味有多接近。

量化類似性

有不一樣的標準來比較兩個觀衆提供的評分,並找出他們是否有類似的品味。在本文中,咱們將學習其中的兩個:Jaccard距離和餘弦距離。口味類似的觀衆更接近。

Jaccard距離

Jaccard距離是另外一個稱爲Jaccard類似性的量的函數。根據定義,集合S和T的Jaccard類似性是S和T的交的大小與其並的大小之比。從數學上講,它能夠寫成:

集A和集B之間的Jaccard距離d(x,y)由下式給出,

餘弦距離

兩個向量A和B之間的餘弦距離是角度d(A,B),由,

其中

分別是向量A和向量B的\(L_2\)範數,n是要審查的產品(本例中是電影)的數量。餘弦距離在0到180度之間變化。

效用矩陣距離測度的計算

爲了更好地理解這些距離度量,讓咱們使用效用矩陣中的數據計算距離(圖1)。

計算Jaccard距離:計算Jaccard距離的第一步是以集合的形式寫入用戶給出的評分。對應於用戶A和B的集合是:

A={HP1,TW,SW1}

B={HP1,HP2,HP3}

集合A和集合B的交集是兩個集合共有的元素集合。A和B的並集是A和B中全部元素的集合。所以

A⋂B={HP1}

A⋃B={HP1,HP2,HP3,TW,SW1}。

A和B之間的Jaccard距離爲:

相似地,A和C之間的Jaccard距離,d(A,C)=0.5。根據這一衡量標準,觀察者A和C與觀察者A和B相比具備更多的類似性,這與對效用表的直觀分析所揭示的徹底相反。所以,Jaccard距離不適合咱們考慮的數據類型。

計算餘弦距離:如今讓咱們計算觀衆A和B之間以及觀衆A和C之間的餘弦距離。爲此,咱們首先必須建立一個表示其評分的向量。爲了簡單起見,咱們假設空格等於0的等級。這是一個值得商榷的選擇,由於零分也可能表明觀衆給出的差分。對應於觀衆A、B和C的向量是:

A=[4,0,0,5,1,0,0]

B=[5,5,4,0,0,0,0]

C=[0,0,0,2,4,5,0]。

A和B之間的餘弦距離爲:

一樣,A和C之間的餘弦距離爲:

這是合理的,由於它代表A比C更接近B。

轉換評分

咱們還能夠經過對矩陣中的每一個元素應用定義良好的規則來轉換效用矩陣中捕獲的數據。在本文中,咱們將學習兩種轉換:四捨五入和標準化。

四捨五入

觀衆一般會給類似的電影提供類似的評分。例如,觀衆B對全部的哈利波特電影給予了很高的評價,而觀衆C對《星球大戰1》和《星球大戰2》給予了很高的評價。這種評分的類似性能夠經過用規則將評分四捨五入來消除。例如,咱們能夠將規則設置爲將等級三、4和5舍入爲1,並將等級1和2視爲空格。應用此規則後,咱們的效用矩陣變成:

在評分四捨五入的狀況下,對應於觀衆A和C的集合的交集爲空集合。這將Jaccard類似度下降到其最小值0,並將Jaccard距離射向其最大值1。此外,對應於觀衆A和B的集合之間的Jaccard距離小於1,這使得A比C更接近B。請注意,Jaccard距離度量在使用原始用戶評分計算距離時並無提供對用戶行爲的這種瞭解。用四捨五入值求餘弦距離獲得了一樣的結論。

標準化評分

另外一種改變原始評分的方法是使其標準化。經過標準化,咱們的意思是從每一個評分中減去每一個觀衆的平均評分。例如,讓咱們爲平均評分爲10/3的觀衆A找到標準化的評分。所以,她的標準化評分是,

下面給出了全部值都標準化的效用矩陣。請注意,這會將較高的值轉換爲正值,而將較低的值轉換爲負值。

因爲效用矩陣中的個別值發生了變化,咱們能夠指望餘弦距離發生變化。可是,Jaccard距離保持不變,由於它只取決於兩個用戶對電影的評分,而不取決於給定的評分。

對於標準化值,對應於觀衆A、B和C的向量爲:

A和B以及A和C之間的餘弦距離爲:

雖然標準化評分的餘弦距離計算並無改變最初的結論(即A比C更接近B),但它確實放大了向量之間的距離。向量A和向量C彷佛與標準化評分的差距特別大,儘管二者都不是很是接近。

結論

推薦系統是互聯網經濟的核心。它們是讓咱們沉迷於社交媒體、在線購物和娛樂平臺的計算機程序。推薦系統的工做是預測特定用戶可能購買或消費的內容。預測這一狀況的兩種普遍方法之一是,看看其餘人——特別是那些對用戶有相似偏好的人——購買或消費了什麼。這種方法的一個關鍵部分是量化用戶之間的類似性。

計算Jaccard和餘弦距離是量化用戶之間類似性的兩種方法。Jaccard距離考慮了被比較的兩個用戶評分的產品數量,而不是評分自己的實際值。另外一方面,餘弦距離考慮的是評分的實際值,而不是兩個用戶評分的產品數量。因爲計算距離的差別,Jaccard和餘弦距離度量有時會致使相互衝突的預測。在某些狀況下,咱們能夠經過根據明確的規則舍入評分來避免此類衝突。

評分也能夠經過從用戶給出的每一個評分中減去用戶給出的平均評分來進行轉換。這一過程稱爲常態化,不影響Jaccard距離,但有放大餘弦距離的趨勢。

原文連接:https://levelup.gitconnected.com/measuring-similarity-in-recommendation-systems-8f2aa8ad1f44

歡迎關注磐創AI博客站:
http://panchuang.net/

sklearn機器學習中文官方文檔:
http://sklearn123.com/

歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/

相關文章
相關標籤/搜索