阿里搜索推薦系統又雙叒叕升級了?!

阿里妹導讀:搜索導購產品做爲搜索的流量入口,承載了爲用戶導購推薦、搜索流量分流的重要功能。主要產品包括:首頁底紋、下拉推薦、搜索發現、導航、歷史搜索等。通過幾年的探索和積累,各個產品愈加地成熟,機器學習算法普遍地應用於導購產品中,取得了顯著的效果。在支撐好手淘搜索業務的基礎上,搜索導購也積極地拓展邊界,支持了集團內大量的產品線。所以對搜索導購產品線提出了更高的要求:不只須要提高自己產品的效率,更好地支持手淘搜索業務,同時也須要有一套靈活的框架,支持更多更廣的業務。

1、系統框架

導購升級的優化思路從三個方向着手:1.策略升級。利用深度學習及異構網絡的思想,對用戶個性化進行更深的理解和建模;同時對因馬太效應引發的獨立query數降低等問題進行優化。 2.導購外投。在包括會場激活頁、猜你喜歡等渠道進行搜索導購賦能,爲用戶打通搜索通路。 3.產品創新。一方面對現有的產品進行創新升級,如激活頁、下拉推薦等;另外一方面積極嘗試新產品形態,如首頁熱詞、搜索動態卡片等。算法

搜索導購核心解決對消費者關鍵詞推薦的問題,所以雖然產品衆多,形態萬千,可是在底層架構上有不少共性,所以咱們設計了一套通用靈活的框架進行支持。網絡

在召回階段,咱們豐富了召回方式;並根據不一樣的渠道、場景以及產品形態,選擇不一樣的召回策略獲得候選query詞candidates。架構

在排序階段,咱們不只將深度學習引入導購算法框架中,並且創新的加入了異構網絡的思想,將用戶不一樣路徑的序列信息結合lstm等模型進行有效融合,對消費者進行更深刻的理解。框架

在業務策略階段,咱們利用 jaccard 係數、編輯距離等進行了對語義重複問題進行了優化,同時結合E&E機制對馬太效應較爲嚴重的場景進行了升級,並增長了效率輪播機制使得效率進一步的獲得提高。機器學習

接下來以幾個具體的產品來進行詳細的介紹。ide

2、詳細方案

2.1 底紋推薦優化學習

在底紋推薦的算法優化中,咱們創新性地提出了基於異構網絡(Heterogeneous Information Network,後面簡稱HIN)的推薦方法,推薦框架以下圖所示:優化

user,item 和 query 是手淘中三種基本類型的節點,這三種類型節點之間又有不一樣的交互關係,好比,user 直接點擊 item,user 經過查詢 query 進入搜索,並在搜索裏發生 item 的點擊等。ui

可是,大多數傳統推薦方法只關注特徵工程,忽略了這些不一樣節點之間的關聯關係。同時電商領域的大規模數據體量(一億query,數十億user和item)也是須要考慮的問題。所以咱們設計提出了一種基於元路徑embedding 表示的大規模 query 推薦方法,MetaPath-guided Embedding for Large-scale Query Recommendation(MELQR),它採用異構網絡對 query推薦進行建模,並利用元路徑經過聚合局部鄰居信息來指導 user 和 query 的表示學習,此外,咱們對異構網絡中全部節點用term embedding的某種融合方法來進行表示,從而避免了網絡學習中的大規模參數問題。spa

該模型結合擴召回、動態展現等策略,對線上底紋使用uv提高10%+,引導成交金額提高10%+。值得一提的是,該模型目前也同步使用到了導購的其它產品例如搜索發現、首頁熱詞等,效果的提高一樣很是明顯。

2.2 首頁熱詞優化

首頁熱詞是今年搜索在手淘首頁的一個創新性產品,能夠幫助用戶經過關鍵詞找到感興趣的商品,加強用戶的搜索心智。

首頁熱詞與底紋推薦共享系統框架與算法框架

2.3 下拉推薦優化

下拉推薦上一個版本的優化目標在於提高下拉引導pv在搜索pv中的佔比,即下拉使用率。上個版本試圖擬合的是用戶對下拉所展現的 query 的偏好程度。可是在其使用的統計類特徵中,使用的特徵均都是下拉引導的數據。這就帶來了一個比較嚴重的問題,在目前的產品形態下,每次用戶輸入,只能展現10個候選的 query。所以一開始展現相對較多的 query 會具備相對較高的統計值,而較高的統計值會促進該query 在排序中排到更靠前的位置。所以造成循環,長此以往,在某些特定的 query下,下拉推薦候選詞的統計值特徵會有很是大的差別。由此造成馬太效應。馬太效應一個最嚴重的問題就是會致使下拉展現的 query 會過分收斂到一個較小的集合中,致使引導的獨立 query 數降低。

針對這些問題,咱們對下拉推薦模型進行了系統的重構,框架以下:

核心思路一方面增長用戶主動輸入的特徵以及樣本,修正下拉自己的馬太,另外一方面強化用戶個性化特徵,加入用戶行爲序列等。優化模型上線後,對下拉自己的使用pv提高10%+。

2.4 動態卡片優化

當用戶的搜索詞比較寬泛時,並不能較好地表徵用戶的搜索意圖,用戶在搜索結果頁的實時點擊行爲,能更加實時地反應用戶當前的意圖,此時給用戶推薦符合其搜索意圖的搜索詞,能夠提高用戶體驗。對經過給用戶推薦相關搜索詞,提高人均 query,進而提高人均pv,提高用戶在搜索的停留時長。產品示例以下:

經過持續的優化,動態卡片的展現ctr已經高於商品、內容等卡片,說明用戶有很強的意願點擊;同時用戶人均 query 提高4%+,人均pv提高1%+,用戶體驗提高。

2.5 其它工做

除上述幾個工做,咱們還支持了搜索發現、會場搜索、推薦風向標、搜索激活頁改版等項目優化。

3、雙十一效果

導購產品線從多個方面進行優化升級,在雙十一也取得了很是不錯的效果:一方面基於異構網絡與深度學習進行了算法策略升級,加強了個性化表達下降了馬太效應,提高了用戶使用率,例如首頁底紋;另外一方面將導購能力賦能於各個渠道,加強了用戶搜索的心智、粘性,提高了各渠道效率,例如首頁熱詞;並對現有的產品進行了交互形態上的創新,豐富產品活力,例以下拉推薦。雙十一當天導購導流產品(底紋+熱詞+會場搜索+風向標)去重使用uv同比去年增速70%+,遠高於搜索大盤uv增速。

4、將來工做

  • 1.Graphembedding 的挖掘。咱們已經基於計算平臺 Graph mind 搭建了初版的異構網絡 metapath2vec 算法,對比 deep walk 效果已經有明顯提高,接下來會繼續嘗試,更靈活方便的獲取不一樣路徑上節點的信息,結合gcn算法進行效果調優。
    1. item2query 挖掘。i2q的數據是導購的一份基礎數據,很大程度會影響導購效果。目前的邏輯核心經過用戶行爲生成,所以存在覆蓋較低,冷啓動商品無數據等問題。咱們指望能結合智能生成的方法,爲商品生成候選query。
  • 3.query到圖的挖掘。query以圖文展現的形式能夠對消費者有更直觀的感覺,所以咱們指望能結合圖像處理的算法,充分挖掘出能表明query的高質量圖片。
  • 4.激活&下拉新形態探索。在移動互聯網時代,用戶的生活習慣、使用方式等一直都在發生變化,咱們指望經過創新的產品形態能捕捉用戶的需求,增長用戶的訪問時間、停留時長等。



本文做者: 西克

閱讀原文

本文來自雲棲社區合做夥伴「阿里技術」,如需轉載請聯繫原做者。

相關文章
相關標籤/搜索