深度強化學習 on-policy 和 off-policy

時間 2021-07-13

標籤強化學習简体版

原文原文鏈接

如下圖，考查兩個Policy的一致性：生成訓練數據基於的Behavior Policy 目標值即target value基於的Target Policy on-policy：兩者一致 off-policy：兩者不同比如DQN： Target Policy π 是基於target network(參數爲)的greedy policy，即給定s，選擇使target value最大的a

>>阅读原文<<