【RL】從on-policy到off-policy

時間 2021-01-02

標籤 Reinforce Learning 简体版

原文原文鏈接

1. 什麼是on-policy，什麼是off-policy 其實這個概念我們之前已經提到了，這裏不妨再提一下： on-policy就是獲取數據的動作和最終策略的動作是一致的，比如Sarsa。 off-policy就是獲取數據的動作和最終策略的動作不一致，比如QLearning。從這種定義我們也可以得知：我們的強化學習流程中涉及到兩個關鍵流程：一個是選擇用來獲取數據的動作，另一個則是我們最終用

>>阅读原文<<