強化學習(六)——策略梯度Policy Gradient

本篇文章主旨不在從頭講述PG,而是通過綜合別人的總結,寫出自己的理解。按照指出的這些引用,消除那些疑惑的地方。 首先放一張圖,先明確強化學習中有哪些方法,策略梯度又處在怎樣的位置。 On-line代表,agent必須和環境交互,一邊選取動作一遍學習;Off-line代表,agent既可以直接與環境交互進行學習,也可以從別人的經驗裏學習。 基礎&入門瞭解PG:http://www.javashuo.
相關文章
相關標籤/搜索