2020李宏毅學習筆記——67 RL Advanced Version 3.Q-learning（basic idea）

時間 2021-01-16

原文原文鏈接

Q-Learning介紹基本思想 Q-learning – value-base 什麼是Critic: critic並不直接決定採取什麼行動，但是會用來衡量一個actor的好壞 critic的輸出值取決於被評估的actor 狀態價值函數 Vπ(s) 對於actor π , 給定狀態s，期望得到的累積收益，該值取決於狀態s和actor π 如何估計狀態價值函數 Vπ(s) 基於蒙特卡洛的方法Mon

>>阅读原文<<