深度強化學習task03

1. Q-learning **Q-learning **是value-based 的方法。在value-based 的方法裏面,我們 learn 的不是 policy,我們要 learn 的是一個critic 。 Critic 並不直接採取行爲,它想要做的事情是評價現在的行爲有多好或是有多不好。假設有一個actor π ,critic 就是來評價這個 actor 的 policy π 好還是不好
相關文章
相關標籤/搜索