中英譯本及下載:http://blog.sina.com.cn/s/blog_586631940100pduh.htmlhtml
如下是摘要筆記:算法
算法應當結合用戶的習慣,用戶特色的分類工具
觀影習慣是比較單一 仍是比較分散性能
這是不一樣的大數據
1、推薦的宗旨:推薦應該要幫助顧客找到和發現新的、相關的、有趣的商品。rest
Recommendations should help a customer find and discover new, relevant, and interesting items.htm
2、解決推薦問題有三個一般的途徑:傳統的協同過濾,聚類模型,以及基於搜索的方法。blog
推薦算法
大多數推薦算法,都始於先找出一個顧客集合,他們買過和評級過的商品,與當前用戶買過和評級過的商品有重疊。算法把來自這些類似顧客的商品彙集起來,排除該用戶已經購買過或評級過的商品,並向該用戶推薦其他的商品。索引
這些算法有兩個最多見的版本:協同過濾和聚類模型。其餘算法——包括基於搜索的方法以及咱們本身的商品到商品協同過濾——都集中於尋找類似的商品,而不是類似的顧客。針對用戶所購買和評級的每一件商品,算法試圖找到類似的產品,而後彙集這些類似的商品,並給予推薦。 產品
1.傳統的協同過濾
利用協同過濾來產生推薦,很耗計算,若是降維,則會影響品質。
2.聚類模型
算法的目標是,把該用戶分配到含有最類似顧客的細分人羣裏,而後,算法再利用該細分顧客人羣的購買和評級,來生成推薦。
較之協同過濾,聚類模型有更好的在線可擴展性和性能、複雜和昂貴的聚類計算會離線運行。然而,推薦品質倒是低的
3.基於搜索的方法
基於搜索或內容的方法,將推薦問題視爲相關商品的搜索,若是該用戶只有少數購買或評級,基於搜索的推薦算法在計算量和性能上都不錯。然而,對於有數千次購買的用戶,要以針對全部商品的查詢爲基礎也不太可行,若使用子集則又下降了品質。
3、電子商務推薦算法的環境挑戰:
• 大型零售商有海量的數據,以千萬計的顧客,以及數以百萬計的登記在冊的不一樣商品。
• 許多應用要求結果實時返回,在半秒以內,還要產生高質量的推薦。
• 新顧客很典型,他們的信息頗有限,只能以少許購買或產品評級爲基礎。
• 較老的顧客信息豐沛,以大量的購買和評級爲基礎。
• 顧客數據不穩定:每一次交互均可提供有價值的顧客數據,算法必須當即對新的信息做出響應。
商品到商品的協同過濾
把推薦做爲一種定向營銷工具。(每有一個用戶,就有一個用戶的個性化商店)
它如何工做
協同過濾的變種,將商品分類,而不是用戶
對於很是大的數據集,一個可擴展的推薦算法必須離線運行最昂貴的計算。而現有方法達不到這樣的要求:
• 傳統的協同過濾只作不多或不作離線計算,其在線計算量取決於顧客和登記在冊商品的數量。在大數據集的狀況下,這樣的算法不可行,除非使用維度下降、抽樣或區隔——全部這些都下降了推薦的品質。
• 聚類模型能離線運行大量的計算,但推薦品質相對較差。出於改進,能夠增長人羣細分的數量,但這會使在線的用戶-細分人羣的分類變得昂貴。
• 基於搜索的模型離線創建起關鍵詞、範疇、做者索引,但不能提供符合興趣、定向內容的推薦。對於購買和評級不少的顧客來講,這些算法的擴展性不佳。
商品到商品協同過濾的可擴展性和性能的關鍵是,它離線創建耗時巨大的類似商品表格。該算法的在線部分——針對當前用戶的購買和評級來尋找類似的商品——計算量獨立於商品目錄的規模或顧客的總數;僅僅取決於該用戶買過或評級過多少個商品。所以,甚至是對於超大數據集,算法也很快速。因爲該算法能推薦高度關聯的類似商品,推薦的品質就很出色10。與傳統的協同過濾不一樣,該算法在用戶數據有限的狀況下也能運行良好,在少至2到3件商品的基礎上,產生高品質的推薦。
鏈接:
http://blog.sina.com.cn/s/blog_586631940100pduh.html
http://www.xysay.com/amazon-item-to-item-collaborative-filtering-207.html