2020李宏毅學習筆記——67 RL Advanced Version 3.Q-learning(basic idea)

Q-Learning介紹 基本思想 Q-learning – value-base 什麼是Critic: critic並不直接決定採取什麼行動,但是會用來衡量一個actor的好壞 critic的輸出值取決於被評估的actor 狀態價值函數 Vπ(s) 對於actor π , 給定狀態s,期望得到的累積收益,該值取決於狀態s和actor π 如何估計狀態價值函數 Vπ(s) 基於蒙特卡洛的方法Mon
相關文章
相關標籤/搜索