強化學習(六)——策略梯度Policy Gradient

時間 2021-07-12

原文原文鏈接

本篇文章主旨不在從頭講述PG，而是通過綜合別人的總結，寫出自己的理解。按照指出的這些引用，消除那些疑惑的地方。首先放一張圖，先明確強化學習中有哪些方法，策略梯度又處在怎樣的位置。 On-line代表，agent必須和環境交互，一邊選取動作一遍學習；Off-line代表，agent既可以直接與環境交互進行學習，也可以從別人的經驗裏學習。基礎&入門瞭解PG：http://www.javashuo.

>>阅读原文<<