紅豆Live推薦算法中召回和排序的應用和策略

本文由 「 AI前線」原創,原文連接: 紅豆Live推薦算法中召回和排序的應用和策略
做者|胡南煒
編輯|Emily

AI 前線導讀:」有人曾說,「語音直播產品紅豆 Live 的忽然出現,讓沉寂了一段時間的語音知識付費市場又從新燃起了生機」,讓語音直播這個小衆市場從新吸引了大衆的注意力,讓聲音愛好者找到知音和志同道合之友。但紅豆 Live 也用了 AI 這個事實,你知道嗎?用到了哪些 AI 技術?推薦算法如何幫助它在衆多語音直播產品中脫穎而出?對有意採用 AI 技術的公司有何啓示?InfoQ 將在這篇文章中揭開這些問題的答案。」算法

InfoQ 編輯對微博機器學習計算和服務平臺負責人胡南煒進行了採訪,詢問了關於微博旗下的語音直播平臺——紅豆 Live 應用 AI 技術的詳細狀況,以及他對 AI 的深刻了解和趨勢預測。網絡


紅豆 Live 的 AI 佈局機器學習

據該產品官網數據顯示,2017 年 1 月,紅豆 Live 面向大衆全面開放,KOL 入駐量達 5000+,主播總數量 4 萬人,開啓了一個全民語音直播的時代。而這款產品的成功,按照該公司的說法,是「AI 發揮的做用不可忽略」。那麼,紅豆 Live 中究竟採用了哪些 AI 技術?這家公司在 AI 技術方面是否有着深遠的佈局呢?ide


從技術層面講,紅豆 Live 在 AI 領域使用了語音識別、推薦排序等深度學習技術;其中在推薦排序中紅豆 Live 經歷了三次算法迭代,從協同過濾到基於內容的推薦,最後到基於音頻譜圖隱藏特徵的深度學習預測模型的演進。「每次的算法迭代都是爲了解決用戶發現更多優質主播以及提升語音直播內容傳播的目標。」胡南煒說道。佈局

衆所周知,企業採用 AI 技術須要高昂的成本,在採用這些技術後究竟能產生多大的效果,這是人們很是關心的問題。胡南煒表示,紅豆 Live 的推薦模型目標是發現更多主播、用戶留存、平均收聽時長 3 項。在應用深度學習預測模型後,從數據表現上,該平臺的主播發現率較人工運營時提升了 135%,用戶留存率提高 20%,平均收聽時長增加 80%。這款產品在應用 AI 後三個重要指標均有較大上漲,所以能夠說,深度學習模型對於其業務是有着明顯影響的。學習

語音直播相對來講受衆數量較小,那這類產品靠什麼來吸引用戶呢?胡南煒認爲,雖然語音直播受衆數量較小,但確實有效解決了一部分垂直用戶的痛點需求。在他看來,直播主要能夠知足用戶兩個方面的需求:娛樂需求和價值需求。顧名思義,娛樂需求是指人們對於娛樂的追求以得到精神知足,直播等視聽感覺結合的形式能夠知足大衆的娛樂需求;而知足價值需求,是指直播能給用戶帶來專業的知識、實用的技能、思路的啓發等具備實際意義的東西,解決現實問題。在這方面,他認爲語音直播更具優點。另外,音頻直播能夠更好的將用戶的注意力聚焦在內容自己上並下降直播成本,AI 能夠幫助忠粉和垂直用戶更便利、更有針對性的獲取到本身所喜歡的語音內容,從而解決內容獲取的痛點。大數據

推薦系統的技術支持詳情雲計算

推薦系統的成功離不開背後的技術支持,而部署 AI 更須要強大的技術來作支撐。3d

紅豆 live 推薦系統中使用 CNN+LSTM 用在標籤服務裏面,把直播間中一些隱藏特徵自動化的提取、關聯、抽象出來,準備率比起傳統機器學習算法大大提升。在 Wide & Deep 排序中,使用寬深度學習網絡結合 LR,不只僅使特徵工程的工做量工程量大爲下降,並且排序模型的記憶能力和泛化能力比單獨使用 LR 提升很多。」從中咱們能夠看到,推薦系統的算法支持使得紅豆 Live 的業務能力顯著提升。日誌

然而,沒有任何算法是天衣無縫的。「紅豆 Live 推薦系統主要的缺陷是,推薦系統中的冷啓動問題。對於新用戶,咱們沒法獲取他們的行爲日誌和 query 日誌。「而針對這個問題,他們有彌補的方法,」由於紅豆 live 用戶和微博用戶重合度爲 90%,能夠利用該用戶的微博興趣標籤,解決用戶的冷啓動問題。」胡南煒說道。

關鍵技術召回和排序的做用和策略

紅豆 Live 推薦系統中的兩個關鍵技術分別是召回和排序,其中在召回層用到的策略,是基於 item 的協同過濾,基於用戶 query 的 CTR 進行召回,和基於用長短時間興趣的進行召回。而在排序層,則使用 Wide & Deep 網絡,主要基於召回層的 item 進行融合、排序,最終選出 top N 個 item 推薦用戶。

召回層的做用在於根據用戶的不一樣興趣,從海量 item 中選出數百個用戶感興趣的 item。而排序層的做用則是基於用戶的一些特徵,對召回層的 item 再次進行打分排序,更精準地選出用戶感興趣的 item。

具體工做流程

此外,胡南煒還爲咱們揭示了紅豆 Live 推薦算法的具體工做流程:

第一,對用戶的行爲日誌進行利用 JStorm 實時收集,並定時更新基於 item 的協同過濾內容。

第二,對直播間內容進行利用 JStorm 實時收集,實時爲直播間打上分類標籤、topic、主題詞等標籤,並定時更新用戶畫像內容。

第三,對用戶 query 日誌利用 JStorm 實時收集,定時計算用戶 query 的 CTR。

最後,當用戶進行刷新時,利用召回策略進行召回,再根據排序策略選擇 top N 呈現給用戶。

AI 識別「少兒不宜」內容準確率提升

「三俗」內容識別一直是正規內容平臺嚴格把關的方面,AI 可以在這一方面發揮更大的做用。紅豆 Live 因爲採用了能夠提取更豐富特徵的新算法,對"三俗"內容進行過濾,所以準確率相較傳統機器學習算法有了很大提高。爲了保障用戶體驗,其針對「三俗」內容分別訓練模型以及使用敏感詞的策略,在對用戶進行推薦前,對推薦內容進行實時過濾。

過擬合問題是最大挑戰

而被問及紅豆 Live 的推薦系統在開發應用過程當中遇到的最大困難是什麼時,胡南煒表示,任何 AI 技術應用的過程當中,神經網絡的過擬合問題都是讓人頭疼的問題,紅豆 Live 也不例外,在開發過程當中遇到的最大挑戰就是它。而他們解決這個問題的思路主要有三點:添加 dropout 層、進行正則化,以及當 loss 和 acc 穩定即中止訓練,這或許對咱們有所啓發。

對 AI 發展趨勢的預測

最後,InfoQ 請胡南煒對 AI 行業在將來的發展趨勢進行了預測,單就語音直播領域來講,胡南煒認爲 AI 技術在語音直播內容分發,以及知足用戶個性化語音內容需求等方向會帶來深遠的影響。「若是說用戶碎片時間主要被社交、閱讀、音視頻等 APP 佔據,那麼不久的未來也必定會增長語音直播類。」他說道。

而在 2018 年 AI 將有什麼樣的發展趨勢這一問題上,他認爲 AI 技術的應用將更加垂直化,AI 技術深刻到用戶平常生活的每個方面,好比語音直播。

胡南煒表示,非監督類學習將是紅豆 Live 下一步的探索,「咱們有這方面的摸索計劃,好比在沒有標註數據的前提下,咱們經過聚類算法將語音直播內容造成一個個的簇,從而作一些粗粒度的隨機推薦。」

注:本文觀點僅表明受訪者本人意見,與受訪者所在公司無關。

講師簡介

胡南煒,畢業於北京航空航天大學計算機科學和工程系,在這裏完成博士學業以後多年從事軟件工程研發和互聯網,我的技術專長爲大數據、雲計算技術和機器學習。他於 2014 年加入微博,負責微博機器學習計算和服務平臺開發。在此以前,曾經在 IBM、Yahoo 等公司工做。

更多幹貨內容,可關注AI前線,ID:ai-front,後臺回覆「AI」、「TF」、「大數據」可得到《AI前線》系列PDF迷你書和技能圖譜。

相關文章
相關標籤/搜索