畢業於中國科學院自動化研究所。在機器學習、推薦系統領域有十餘年的前沿探索和工業實踐經驗,多篇論文發表在 RecSys、CIKM 等推薦系統國際學術會議上,現任京東推薦廣告算法負責人。算法
互聯網發展至今,推薦系統無處不在,它也成爲了許多電商平臺的收益引擎。京東的個性化推薦系統也爲公司帶來了很是大的收益。隨着推薦系統在信息分發中做用愈來愈重要,咱們也在探究大規模機器學習、深度學習等技術在京東的商品搜索和推薦中是如何應用的,以及一個高效、有價值的推薦系統應該知足哪些條件等問題。微信
推薦系統如何驅動業務增加網絡
數字化信息時代,推薦系統已經成爲了 To C 互聯網產品的標配技術,而推薦算法對於業務收益的提高也起到了相當重要的做用。像亞馬遜、Netflix 等平臺,都會經過推薦系統來獲取巨大的商業價值,據數據統計,推薦系統每一年能爲 Netflix 產生超 10 億美圓的商業價值,亞馬遜約 40% 的收入來自個性化推薦系統。框架
對於電商而言,個性化的推薦系統能知足千人千面的海量需求。它的本質其實是在用戶購買意圖不明確的狀況下,利用機器學習或深度學習算法,結合用戶特徵、商品特徵和場景特徵來構建建用戶興趣模型,進而從海量的商品中找到用戶感興趣的商品,縮短用戶到商品的距離,提高用戶購買效率和產品體驗。彭長平認爲,個性化推薦,是候選極大豐富場景下的有效分發機制。他從商品數量和質量兩個角度解釋了京東推薦系統對業務增加的驅動。機器學習
第1、數量上,電商的商品 SKU 遠遠超過人腦能處理的量級,好比「果醬」在京東有十幾萬個 SKU,斯坦福大學的學者曾經在線下超市作過一個實驗,A 組提供 24 種口味果醬,在貨架前停留的用戶僅 3% 發生了購買,B 組提供 6 種口味果醬,在貨架前停留的用戶 30% 發生了購買,相對 A 組高出 10 倍。「Less Is More」,在候選太多的電商場景中,「貨找人」的個性化推薦幫用戶篩選出少許適合他的選擇。函數
第2、質量上,個性化推薦是帶平臺價值觀的,京東推薦系統綜合商品的品牌、屬性、價格、評價、物流等全部信息,主推「好」、「省」、「快」的商品。所以,在爲用戶帶來更好的購物體驗的同時,用戶粘性也會增長,從而造成良性循環,帶來更好的收益效果。佈局
隨着大規模機器學習、深度學習等技術的成熟,它們在商品推薦中的應用也更加普遍。彭長平認爲,目前工業界,推薦系統是機器學習算法應用最普遍、最深刻、最成功的系統,幾乎每個環節,咱們都在用數據和算法驅動的模型,去替代人工拍腦殼。學習
可能你們最熟悉的深度學習技術用於推薦系統上的應用是點擊率和轉化率預估,但他還舉了幾個其餘的應用例子:1、召回,召回很難作到一個模型解決全部問題,所以,京東在召回方面同時使用了 Vector-Based、Tree-Based、Graph-Based 多種類型的深度學習模型;2、商品知識圖譜,商品的文本、圖片、視頻理解及商品間的關係,幾乎徹底依賴於 NLP、CV 等各種機器學習算法;3、Rerank 重排序,推薦是多目標優化問題,在點擊率預估值的基礎上須要作 Rerank,以提高用戶體驗和瀏覽深度,Session 全局優化引導用戶不斷下拉的業務場景,很是匹配深度強化學習。優化
優質的推薦系統要具有哪些特色?雲計算
因爲用戶羣、業務場景、地域和文化的不一樣,推薦系統千人千面,紛繁萬變的細節當中,不一樣平臺的推薦系統也各不相同。彭長平表示,相對於視頻、資訊、直播等媒體內容平臺,京東電商的推薦系統作到 60 分會比較容易,但要作到 80 分、90 分卻很困難。
從框架上看,推薦系統都在作 User 理解、Item 理解和兩者匹配,系統都有選品、召回、點擊率預估、Rerank 重排序等環節。但電商推薦的困難在於如下三個方面:
第1、從 User 端看,內容資訊平臺,用戶的需求相對來講長期不變,內容的消費過程在線上完成。而購物需求的產生和消費過程都在線下,線上只是一個交易過程,線下的過程是難以追蹤和數據化的,電商場景對用戶需求的識別和激發挑戰很大;
第2、從 Item 端看,內容資訊平臺的內容生產者們,圍繞同一個興趣主題,能夠日復一日地變着花樣更新內容。購物場景中,若是用戶已經購買,同類的商品就不能再推薦了,對拓展和激發用戶的需求更高;
第3、從推薦系統但願用戶作出的 Action 看,內容資訊平臺的主要知足用戶娛樂類需求,消費不合理推薦資訊的成本很低。而購物場景中,推薦系統指望用戶點擊、瀏覽,讓用戶種草甚至讓用戶花錢購買也是系統優化目標,若是 Item 質量差或推薦精準性不夠,用戶會拋棄平臺的推薦功能,甚至從平臺流失。
那麼,一個高效、有價值的推薦系統須要具有哪些特色呢?彭長平認爲,在用戶沒有主動需求表達的狀況下,將用戶喜歡的 Item 分發到其面前就算得上是好的推薦系統。這樣的系統須要知足如下三個條件:
第1、是知足用戶需求的,體如今用戶願意看,停留時間長上;
第2、是有成長性的,體如今能拓展用戶興趣、能帶動優質的商品或者內容提供者成長、對新用戶或新商家友好;
第3、是體現平臺價值觀的,推薦系統促進平臺玩家的優勝劣汰。
要作到這三點,推薦系統須要作幾方面的工做:1、從 User 行爲反饋和 Item 信息中學習,讓模型基於數據自適應的進行匹配;2、召回環節沒有 silver bullet,須要使用多種不一樣類型的算法來作召回,各個階段的模型都要有較強的泛化能力,對冷啓動 User 和 Item 作定製優化;3、體現平臺價值觀的優化目標函數,大部分是多目標優化。
電商推薦系統的應用實踐
推薦系統是一種信息過濾系統,用於預測用戶對物品的「評分」或「偏好」,其目標是對用戶感興趣的商品或內容產生有意義的推薦。在充斥着海量信息和數據的互聯網上,若是沒有推薦系統,用戶想獲取有價值的內容就猶如大海撈針。推薦系統能經過對大量動態生成的信息進行搜索,爲用戶提供個性化的內容和服務,有效解決信息超載的問題。隨着數字化信息和互聯網訪問者的爆發式增加,推薦系統顯得比以往任什麼時候候都要重要。
京東推薦系統發展到今天,主要經歷瞭如下四個階段:
1、知足用戶需求階段。 在知足客戶需求方面,最先的系統從搜索系統改造而來,將用戶近期的瀏覽的商品理解爲用戶的需求,Item-based CF 是最主要的召回手段。
2、拓展用戶需求階段。 在這個階段召回上,不管從數據仍是從算法角度,都是從儘量多的角度去提高召回的豐富度,京東爲此立了個項目叫「召回萬花筒」,不斷提高召回的多樣性和覆蓋率。在排序環節,優化目標從強調與用戶匹配程度的點擊率、轉化率,到兼顧優化用戶下拉深度、新穎性、多樣性。
3、Session 全局優化與商家生態優化階段。 在進入此階段後,京東的優化重點在 Rerank 環節,將用戶在 Session 內的前序瀏覽行爲視爲一個完整的 List,Rerank 排序是一個 List 生成和 List 評估的過程,即優化 List 總體用戶的瀏覽量和點擊量。另外一個方向是引入生態優化機制,模型量化用戶和商品間發生一次交互,對用戶和商家的長期價值,並將預估的量化價值引入到排序機制中。
4、跨用戶羣體與跨商家羣體聯合優化階段。 隨着京東業務的發展,覆蓋的用戶羣體從相對單一的羣體拓展到了很是多元化的羣體中,三到六線城市的用戶佔比已經超過六成,不管是京東 App 內,仍是專爲下沉市場定製的京東極速版、京喜,用戶羣的拓展、定製化新 APP 的高速增加,爲千人千面的推薦算法提出了更大的挑戰。這個階段商品知識圖譜、遷移學習等技術發揮了重要做用。
不一樣時期,京東推薦系統在提高推薦精準度、精細度和覆蓋率等方面,也作了不少的努力。彭長平表示,要同時提高推薦系統幾個看似矛盾的優化目標,須要從三個維度入手:召回算法多樣化,從計算 User-Item Pair 級的優化轉向 Session 級全局優化,護航優質商家成長的生態優化。京東從這三個角度作了如下工做:1、召回萬花筒:從召回粒度上,咱們在 User 和 Item 上都創建了粗細粒度不一的分層表徵,從不一樣粒度去作兩者的匹配。從召回算法上,Boolean Matching Model、Embedding-based Retrieval、Knowledge-based Retrieval 在咱們的推薦結果都佔有較大的比例。2、Session 全局優化:從單條推薦候選看,精準度和驚喜度是有矛盾的,而從最大化 Session 總體點擊量的角度優化兩者是統一的,即 CTR 模型從 Pointwise 轉向了 Listwise。3、商家生態優化:新商家、新商品的質量分級和冷啓動機制,有效的保障了其中優質部分在平臺的曝光量和訂單量。而源源不斷的新商家入駐和新商品發佈,是提高覆蓋率和驚喜度的重要驅動力。
據彭長平介紹,京東平臺上有許多子場景,每一個子場景又有很是多的細分搜索和推薦,對於這些子場景推薦的聯合優化,最主要用到的是遷移學習算法。每一個子場景的用戶行爲都是不充分的,但每一個場景下又有其獨特的用戶行爲模式。京東聯合使用主場景和多個子場景的數據進行模型訓練,設計了一套多層的網絡結構,讓模型既能從主場景中遷移知識,也能從同類的子場景中遷移知識。經過遷移學習構建子場景的單個模型,能同時應用在京東 App、京喜 App、京東極速版 App、微信購物、QQ 購物等多個終端。
在各電商平臺競爭日趨激烈的當下,如何吸引來更多的新用戶並增長老用戶的活躍度和平臺粘性,是影響平臺發展的關鍵因素,所以,推薦系統的不斷迭代和升級就顯得尤其重要。將來,京東推薦系統也會在導購類內容推薦、場景式推薦和生態優化機制這三個技術方向上進行優化。
從導購類內容推薦來說,隨着以直播帶貨爲表明的電商內容化,京東平臺已經積累了大批量內容生產者,他們生產的優質帶貨內容和商品一塊兒成爲推薦系統的候選 Item,不一樣類型的物料、不一樣的優化目標,對算法提出了更大的挑戰,更豐富的內容也給用戶帶來了更好的」逛「和「買「購物體驗。
從場景式推薦來說,提到「逛」的體驗,不少人對「宜家」門店的場景化佈局深有感觸。京東正在開發基於用戶商品消費場景的理解,推薦場景所須要商品的全集合,並以更立體的方式呈現到用戶面前,提供在線的場景化購物體驗。
最後,從生態優化機制來說,將來須要作的是,強化推薦系統內的商家優勝劣汰機制和優質新商家、新商品的成長機制。
技術難題及突破口
雖說推薦系統已經很大程度緩解了信息過載的問題,知足了用戶的個性化需求,可是目前仍有部分問題阻礙着推薦系統的發展。彭長平認爲,這其中最大的困難仍是「數據」的問題。具體體如今兩個點上:第1、如何全面獲取和快速處理數據;第2、模型如何能更高效地從海量數據中學習。
那麼,在解決全面獲取和快速處理數據問題上,要先分別弄清楚如何解決「全面」和「快速」的問題。「全面」,須要將每個與用戶交互的觸點,線上、線下的全渠道數據融合;「快速」,須要以準實時的流式數據處理機制,提升數據到模型、以及模型參數更新的時效性。隨着 IoT 終端的多樣化和終端計算能力的提高,端計算和雲計算結合,能進一步提高推薦系統對用戶反饋的及時應對。
面對海量複雜的數據,咱們既要提升模型系統的絕對算力、系統處理數據絕對量和 TB 級的複雜模型服務,也要提高模型結構對海量數據的適配度,在後一個問題上,彭長平表示更看好 AutoML 技術走向成熟,好比咱們目前在 NAS 網絡結構搜索工做上,效果已經追平了專業算法工程師長期調優的模型結構,不久的將來,相信就能取代調模型結構的鍊金術師們。
彭長平認爲:
工業界的推薦系統,沒有單項的核心技術。推薦系統中算法佔據主導、人相對被動,不論是用戶仍是商家,對算法出錯的容忍度都很低,系統只有收集到儘量全和儘量高時效的數據、採用更高效的算法、打磨好每個細節,用戶和商家纔會信任推薦系統。
隨着技術的進步,衣、食、住、行、娛,每個領域都將進入供過於求的狀態。能夠預見,隨着 5G 和 IoT 的普及,人和電子設備打交道,會愈來愈依賴於推薦技術,甚至不是一套平臺級的推薦系統,而是每一個人在每個領域,都須要一名個性化的推薦「助理」。
直播預告
若是你對以上內容還意猶未盡,想和彭長平老師進行直接交流,那麼,機會來了!
下週一晚 20:00(9月7日),彭長平將做客 InfoQ 線上公開課,帶來《京東電商推薦系統的應用實踐》精彩分享,對電商場景下用戶興趣拓展感興趣的小夥伴必定要來看哦!