幾種用戶類似度計算方法及其優缺點

 進行用戶協同過濾時,一個關鍵問題是如何計算用戶之間的類似性。比較常見的計算用戶類似度的算法有餘弦類似性、皮爾森係數、調整餘弦類似性三種。算法

    這三種類似性都是基於一個稱爲用戶-項目矩陣的數據結構來進行計算的。該數據結構以下:
    幾種用戶類似度計算方法及其優缺點數據結構

    餘弦類似性:把用戶評分看做是n維項目空間上的向量,經過計算兩個向量之間的夾角餘弦來度量兩個用戶之間的類似性。

    皮爾森係數:又稱相關類似性,經過Peason相關係數來度量兩個用戶的類似性。計算時,首先找到兩個用戶共同評分過的項目集,而後計算這兩個向量的相關係數。
    調整餘弦類似性:將餘弦類似性中的向量,減去用戶平均評分向量後,再計算夾角餘弦以修正不一樣用戶評分尺度不一樣的問題。

    在數據比較稀疏的狀況下,這幾種方法均存在必定問題:餘弦類似性和調整餘弦類似性對於用戶未評價項目評分爲0的假設;皮爾森係數中用戶共同評分項目集可能很小。搜索引擎

    在垂直搜索引擎中,用戶數據具備至關的稀疏性。因此須要經過必定的手段來消除這種稀疏性。個人思路:
    1.垂直搜索中存在一個項目的目錄(樹形結構),若是自頂向下進行評分,並將子項目分數與父項目分數按必定規則運算後做爲最後評分。從而填充稀疏矩陣爲密集矩陣。
    2.按照密集矩陣進行推薦。索引

相關文章
相關標籤/搜索