幾種用戶類似度計算方法及其優缺點

時間 2019-11-06

標籤幾種用戶類似計算方法及其優缺點简体版

原文原文鏈接

進行用戶協同過濾時，一個關鍵問題是如何計算用戶之間的類似性。比較常見的計算用戶類似度的算法有餘弦類似性、皮爾森係數、調整餘弦類似性三種。算法

這三種類似性都是基於一個稱爲用戶-項目矩陣的數據結構來進行計算的。該數據結構以下：
數據結構

    餘弦類似性：把用戶評分看做是n維項目空間上的向量，經過計算兩個向量之間的夾角餘弦來度量兩個用戶之間的類似性。

    皮爾森係數：又稱相關類似性，經過Peason相關係數來度量兩個用戶的類似性。計算時，首先找到兩個用戶共同評分過的項目集，而後計算這兩個向量的相關係數。
    調整餘弦類似性：將餘弦類似性中的向量，減去用戶平均評分向量後，再計算夾角餘弦以修正不一樣用戶評分尺度不一樣的問題。

    在數據比較稀疏的狀況下，這幾種方法均存在必定問題：餘弦類似性和調整餘弦類似性對於用戶未評價項目評分爲0的假設；皮爾森係數中用戶共同評分項目集可能很小。搜索引擎

    在垂直搜索引擎中，用戶數據具備至關的稀疏性。因此須要經過必定的手段來消除這種稀疏性。個人思路：
    1.垂直搜索中存在一個項目的目錄（樹形結構），若是自頂向下進行評分，並將子項目分數與父項目分數按必定規則運算後做爲最後評分。從而填充稀疏矩陣爲密集矩陣。
    2.按照密集矩陣進行推薦。索引

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。