強化學習Proximal Policy Optimization (PPO) 原理

視頻地址:https://www.bilibili.com/video/av63546968?p=2 課件地址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html Proximal Policy Optimization (PPO) 所謂 on-policy 指我們學習的 agent(即actor) 和與環境交互的 agent 是相同的,
相關文章
相關標籤/搜索