淘寶推薦系統

1、推薦系統概念算法

一、推薦系統定義api

維基百科:推薦系統屬於資訊過濾的一種應用。推薦系統可以將可能受喜愛的資訊或實物(例如:電影、電視節目、音樂、書籍、新聞、圖片、網頁)推薦給使用者。分佈式

推薦系統大致可分爲兩類,即個性化推薦和非個性化推薦。oop

二、推薦系統做用性能

從用戶角度:大數據

  • 提升用戶忠誠度
  • 幫助用戶快速找到商品

從網站角度:網站

  • 提升網站交叉銷售能力
  • 提升成交轉化率

好的推薦系統更像一個有經驗的網站導購員搜索引擎

三、推薦系統與其餘系統的區別設計

推薦與搜索排序

相同點:幫助用戶找到商品

不一樣點:搜索是經過用戶主動輸入的關鍵字進行查詢。推薦則是用戶在瀏覽網站的過程當中,不必定須要用戶輸入,根據當前網頁的上下文進行個性化的信息輸出。

推薦與廣告

相同點:基於用戶行爲

不一樣點:廣告目的是幫助商家推廣商品等,推薦系統幫助用戶找到想要的商品等。

推薦與SNS

相同點:它們都有基於人羣的共同點產生推薦

不一樣點:一個是機器,一個是人工

四、推薦系統的主要產品

  • 同類或者相關商品、店鋪推薦
  • 買了還買、看來還看等
  • 猜你喜歡
  • 羣體信息披露
  • 熱門排行榜
  • etc

2、推薦系統的組成

一、數據

  • explicit(顯式):能準確的反應用戶對物品的真實喜愛,但須要用戶付出額外的代價。如:用戶收藏、用戶評價。
  • Implicit(隱式):經過一些分析和處理,才能反映用戶的喜愛,只是數據不是很精確,有些行爲的分析存在較大的噪音。如:用戶瀏覽、用戶頁面停留時間、訪問次數。

二、算法

  • 離線:用戶類目偏好、用戶購買力分析、關聯性分析、類似矩陣計算等等
  • 在線:排序、過濾、增量計算

算法須要配合大量業務規則,沒有最好,只有更好!

三、消息系統

消息系統是大型系統不可或缺的重要組成部分,與其餘系統解耦,消息轉發。

四、搜索引擎

主要功能是進行文本分析抽取關鍵詞,做爲推薦系統的一個信息檢索技術內容相關性匹配。

五、NoSQL

簡單、高性能、方便定製

六、分佈式計算

使用MapReduce , Hive、Hadoop進行大規模數據統計和運算和大數據集合的ETL

3、淘寶的推薦系統

一、淘寶數據特色

  • 數據量巨大:數百萬店鋪、數億激活用戶、數億的在線商品、數十億的收藏信息…
  • 商品問題:同一類商品多個賣家、標類非標類、類目屬性正確性、惡意收藏、刷信譽…

二、淘寶推薦系統應用場景

目前覆蓋大小場景60多個,主要包括

  • Detail 瀏覽了還瀏覽
  • 收藏夾彈出層推薦
  • 購物車彈出層推薦
  • 已買到寶貝你可能感興趣
  • 淘寶無線應用
  • EDM(重複購買提醒)
  • 各個垂直頻道
  • 個性化list排序
  • 開放平臺api

淘寶業務產品豐富,推薦功能穿插其中,推薦功能涵蓋的範圍更廣,不少場景推薦算法與業務規則相關。

三、淘寶推薦系統算法

①基礎算法:聚類算法,預測算法,分類算法等,主要用於產生基礎知識庫

  • 預測算法:logistic 迴歸,經過以點擊率爲目標,以商品,賣家等因素做爲指標,創建預測模型構建淘寶優質寶貝庫
  • 分類算法:樸素貝葉斯,商品性別判斷(男性,女性,中性),用戶性別判斷
  • 聚類算法:人羣,用戶細分,用於降維

②推薦算法:content-based,collaborative-based,Association Rules等等

基於內容推薦:經過給用戶和商品標註Tag,經過內容匹配算法,推薦商品給用戶

  • 優勢:簡單,搜索引擎支持,解決部分冷啓動問題
  • 缺點:難以區分商品信息的品質,並且不能爲用戶發現新的感興趣的商品,只能發現和用戶已有興趣類似的商品

協同思想

  • 優勢:新奇特,個性化程度高
  • 缺點:冷啓動,稀疏性

關聯規則:類目的相關性、商品相關性、人的相關性

四、推薦系統的效果評測

  • Offline: 給定輸入輸出,驗證系統的輸出
  • Online : ABTest (衡量指標:CTR GMV 轉換率)

五、淘寶推薦系統的設計

  • 提供統一的平臺管理各個推薦模塊
  • 提供高性能分佈式存儲
  • 提供算法的AbTest和效果統計
  • 提供靈活算法配置

①   分佈是存儲:Treasure

  • 存儲雲梯(hadoop)上對用戶、商品等原始數據分析的結果
  • 雲梯週期性同步,無實時更新
  • 爲推薦系統提供ABTest存儲支持
  • 可直接存儲部分推薦算法的結果供推薦使用
  • 動態部署

②調度系統

  • 負責週期性雲梯(hadoop)任務調度
  • 分佈式
  • 生產者 消費者

③協調系統

  • Zookeeper集羣
  • 智能路由
  • 線上與線下聯動通知
  • Job依賴通知

總結:推薦系統是須要不斷創新而且與場景和行業有事緊密的關係

相關文章
相關標籤/搜索