讀論文筆記——Jointly Learning to Recommend and Advertise

論文:Jointly Learning to Recommend and Advertise 鏈接:https://arxiv.org/pdf/2003.00097 作者:msu+頭條 預備知識 強化學習:假定一個智能體(agent),在一個未知的環境中(當前狀態state),採取了一個行動(action),然後收穫了一個回報(reward),並進入了下一個狀態。最終目的是求解一個策略讓agent
相關文章
相關標籤/搜索