reading notes -- Amazon.com Recommendations: Item-to-Item Collaborative Filtering

時間 2019-11-24

標籤 reading notes amazon.com amazon com recommendations item collaborative filtering 欄目硅谷简体版

原文原文鏈接

中英譯本及下載：http://blog.sina.com.cn/s/blog_586631940100pduh.htmlhtml

如下是摘要筆記：算法

算法應當結合用戶的習慣，用戶特色的分類工具

觀影習慣是比較單一仍是比較分散性能

這是不一樣的大數據

1、推薦的宗旨：推薦應該要幫助顧客找到和發現新的、相關的、有趣的商品。rest

Recommendations should help a customer find and discover new, relevant, and interesting items.htm

2、解決推薦問題有三個一般的途徑：傳統的協同過濾，聚類模型，以及基於搜索的方法。blog

推薦算法
大多數推薦算法，都始於先找出一個顧客集合，他們買過和評級過的商品，與當前用戶買過和評級過的商品有重疊。算法把來自這些類似顧客的商品彙集起來，排除該用戶已經購買過或評級過的商品，並向該用戶推薦其他的商品。索引

這些算法有兩個最多見的版本：協同過濾和聚類模型。其餘算法——包括基於搜索的方法以及咱們本身的商品到商品協同過濾——都集中於尋找類似的商品，而不是類似的顧客。針對用戶所購買和評級的每一件商品，算法試圖找到類似的產品，而後彙集這些類似的商品，並給予推薦。產品

1.傳統的協同過濾

利用協同過濾來產生推薦，很耗計算，若是降維，則會影響品質。

2.聚類模型

算法的目標是，把該用戶分配到含有最類似顧客的細分人羣裏，而後，算法再利用該細分顧客人羣的購買和評級，來生成推薦。

較之協同過濾，聚類模型有更好的在線可擴展性和性能、複雜和昂貴的聚類計算會離線運行。然而，推薦品質倒是低的

3.基於搜索的方法
基於搜索或內容的方法，將推薦問題視爲相關商品的搜索，若是該用戶只有少數購買或評級，基於搜索的推薦算法在計算量和性能上都不錯。然而，對於有數千次購買的用戶，要以針對全部商品的查詢爲基礎也不太可行，若使用子集則又下降了品質。

3、電子商務推薦算法的環境挑戰：
• 大型零售商有海量的數據，以千萬計的顧客，以及數以百萬計的登記在冊的不一樣商品。
• 許多應用要求結果實時返回，在半秒以內，還要產生高質量的推薦。
• 新顧客很典型，他們的信息頗有限，只能以少許購買或產品評級爲基礎。
• 較老的顧客信息豐沛，以大量的購買和評級爲基礎。
• 顧客數據不穩定：每一次交互均可提供有價值的顧客數據，算法必須當即對新的信息做出響應。

商品到商品的協同過濾

把推薦做爲一種定向營銷工具。（每有一個用戶，就有一個用戶的個性化商店）

它如何工做

協同過濾的變種，將商品分類，而不是用戶

對於很是大的數據集，一個可擴展的推薦算法必須離線運行最昂貴的計算。而現有方法達不到這樣的要求：
• 傳統的協同過濾只作不多或不作離線計算，其在線計算量取決於顧客和登記在冊商品的數量。在大數據集的狀況下，這樣的算法不可行，除非使用維度下降、抽樣或區隔——全部這些都下降了推薦的品質。
• 聚類模型能離線運行大量的計算，但推薦品質相對較差。出於改進，能夠增長人羣細分的數量，但這會使在線的用戶-細分人羣的分類變得昂貴。
• 基於搜索的模型離線創建起關鍵詞、範疇、做者索引，但不能提供符合興趣、定向內容的推薦。對於購買和評級不少的顧客來講，這些算法的擴展性不佳。
商品到商品協同過濾的可擴展性和性能的關鍵是，它離線創建耗時巨大的類似商品表格。該算法的在線部分——針對當前用戶的購買和評級來尋找類似的商品——計算量獨立於商品目錄的規模或顧客的總數；僅僅取決於該用戶買過或評級過多少個商品。所以，甚至是對於超大數據集，算法也很快速。因爲該算法能推薦高度關聯的類似商品，推薦的品質就很出色10。與傳統的協同過濾不一樣，該算法在用戶數據有限的狀況下也能運行良好，在少至2到3件商品的基礎上，產生高品質的推薦。

鏈接：

http://blog.sina.com.cn/s/blog_586631940100pduh.html

http://www.xysay.com/amazon-item-to-item-collaborative-filtering-207.html

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。