深度強化學習 on-policy 和 off-policy

如下圖,考查兩個Policy的一致性: 生成訓練數據基於的Behavior Policy 目標值即target value基於的Target Policy on-policy:兩者一致 off-policy:兩者不同 比如DQN:        Target Policy π 是基於target network(參數爲)的greedy policy,即給定s,選擇使target value最大的a
相關文章
相關標籤/搜索