【RL】從on-policy到off-policy

1. 什麼是on-policy,什麼是off-policy 其實這個概念我們之前已經提到了,這裏不妨再提一下:  on-policy就是獲取數據的動作和最終策略的動作是一致的,比如Sarsa。  off-policy就是獲取數據的動作和最終策略的動作不一致,比如QLearning。 從這種定義我們也可以得知:我們的強化學習流程中涉及到兩個關鍵流程:一個是選擇用來獲取數據的動作,另一個則是我們最終用
相關文章
相關標籤/搜索