強化學習中的on-policy和off-policy解釋

首先引經據典一番,在sutton的introduction to reinforcement中,82頁(第二版,November 5, 2017)中寫道: On-policy methods attempt to evaluate or improve the policy that is used to make decisions, whereas off-policy methods eva
相關文章
相關標籤/搜索