乾貨｜個性化推薦系統五大研究熱點之強化學習（三）

時間 2019-11-07

標籤乾貨個性化推薦系統五大研究熱點強化學習简体版

原文原文鏈接

【編者按】微軟亞洲研究院社會計算組的研究員們從深度學習、知識圖譜、強化學習、用戶畫像、可解釋性推薦等五個方面，展望了將來推薦系統發展的方向。算法

在前兩篇文章中，咱們分別介紹了深度學習技術和知識圖譜在推薦系統中的應用以及將來可能的研究方向。在今天的文章中，咱們將介紹強化學習在推薦系統中的應用。微信

經過融合深度學習與知識圖譜技術，推薦系統的性能取得了大幅的提高。然而，多數的推薦系統還是以一步到位的方式創建的：它們有着相似的搭建方式，即在充分獲取用戶歷史數據的前提下，設計並訓練特定的監督模型，從而獲得用戶對於不一樣物品的喜愛程度。這些訓練好的模型在部署上線後能夠爲特定用戶識別出最具吸引力的物品，爲其作出個性化推薦。在此，人們每每假設用戶數據已充分獲取，且其行爲會在較長時間以內保持穩定，使得上述過程當中所創建的推薦模型得以應付實際中的需求。框架

然而對於諸多現實場景，例如電子商務或者在線新聞平臺，用戶與推薦系統之間每每會發生持續密切的交互行爲。在這一過程當中，用戶的反饋將彌補可能的數據缺失，同時有力地揭示其當前的行爲特徵，從而爲系統進行更加精準的個性化推薦提供重要的依據。post

強化學習爲解決這個問題提供了有力支持。依照用戶的行爲特徵，咱們將涉及到的推薦場景劃分爲靜態與動態，並分別對其進行討論。性能

1. 靜態場景下的強化推薦

在靜態場景之下，用戶的行爲特徵在與系統的交互過程當中保持穩定不變。對於這一場景，一類有表明性的工做是基於上下文多臂老虎機（contextual multi-armed bandit）的推薦系統，它的發展爲克服推薦場景中的冷啓動問題提供了行之有效的解決方案。學習

在許多現實應用中，用戶的歷史行爲每每服從特定的長尾分佈，即大多數用戶僅僅產生規模有限的歷史數據，而極少的用戶則會生成較爲充足的歷史數據。這一現象所帶來的數據稀疏問題使得傳統模型在不少時候難以獲得使人滿意的實際效果。優化

爲此，一個直接的應對方法是對用戶行爲進行主動式的探索，即經過對用戶發起大量嘗試性的推薦，以充分的得到其行爲數據，從而保障推薦系統的可用性。然而不幸的是，這一簡單的作法勢必引起極大的探索開銷，使得它在現實中並不具有可行性。人工智能

爲使主動式探索具有可行的效用開銷，人們嘗試藉助多臂老虎機問題所帶來的啓發。多臂老虎機問題旨在於「探索-利用」間作出最優的權衡，爲此諸多經典算法被相繼提出。儘管不一樣的算法有着不一樣的實施機制，它們的設計都本着一個共同的原則。spa

具體說來，系統在作出推薦的時候會綜合考慮物品的推薦效用以及累積嘗試。較高的推薦效用預示着較低的探索開銷，而較低的累積嘗試則代表較高的不肯定性。爲此，不一樣的算法都會設計特定的整合機制，使得同時具有較高推薦效用與不肯定性物品能夠獲得優先嚐試。設計

2. 動態場景下的強化推薦

在多臂老虎機的設定場景下，用戶的實時特徵被假設爲固定不變的，所以算法並未涉及用戶行爲發生動態遷移的狀況。然而對於諸多現實中的推薦場景，用戶行爲每每會在交互過程當中不斷變化。這就要求推薦系統依照用戶反饋精確估計其狀態發展，併爲之制定優化的推薦策略。

具體來說，一個理想的推薦系統應知足以下雙方面的屬性。一方面，推薦決策須要充分基於用戶過往的反饋數據；另外一方面，推薦系統須要優化整個交互過程之中的全局收益。強化學習爲實現上述目標提供了有力的技術支持。

在強化學習的框架之下，推薦系統被視做一個智能體（agent），用戶當前的行爲特徵被抽象成爲狀態（state），待推薦的對象（如候選新聞）則被看成動做（action）。在每次推薦交互中，系統依據用戶的狀態，選擇合適的動做，以最大化特定的長效目標（如點擊總數或停留時長）。推薦系統與用戶交互過程當中所產生的行爲數據被組織成爲經驗（experience），用以記錄相應動做產生的獎勵（reward）以及狀態轉移（state-transition）。基於不斷積累的經驗，強化學習算法得出策略（policy），用以指導特定狀態下最優的動做選取。

咱們近期將強化學習成功應用於必應個性化新聞推薦（DRN: A Deep Reinforcement Learning Framework for News Recommendation，WWW 2018）。得益於算法的序列化決策能力及其對長效目標的優化，強化學習必將服務於更爲普遍的現實場景，從而極大地改善推薦系統的用戶感知與個性化能力。

強化推薦的機遇與挑戰

強化學習推薦算法尚有諸多富有挑戰性的問題亟待解決。

現行主流的深度強化學習算法都試圖避開對環境的建模，而直接進行策略學習（即model-free）。這就要求海量的經驗數據以獲取最優的推薦策略。然而，推薦場景下的可獲取的交互數據每每規模有限且獎勵信號稀疏（reward-sparsity），這就使得簡單地套用既有算法難以取得使人滿意的實際效果。如何運用有限的用戶交互獲得有效的決策模型將是算法進一步提高的主要方向。

此外，現實中人們每每須要對不一樣推薦場景進行獨立的策略學習。不一樣場景下的策略互不相同，這就使得人們不得不花費大量精力以對每一個場景都進行充分的數據採集。同時，因爲不具有通用性，既有策略難以迅速適應新的推薦場景。面對這些挑戰，人們須要儘量地提出通用策略的學習機制，以打通算法在不一樣推薦場景間的壁壘，並加強其在變化場景中的魯棒性（robustness）。

下一篇文章咱們將圍繞「推薦系統中的用戶畫像」的研究展開討論。想要了解關於推薦系統的更多研究熱點，還請持續關注。