強化學習筆記之Critic(三)

前面介紹了Actor的策略,接下來介紹Critic。 1. 什麼是critic critic就是一個神經網絡,以狀態s爲輸入,以期望的reward爲輸出。 1.1 Actor和Critic的區別 Actor是以s爲輸入,輸出對應的action和其概率。 Criti則是以s爲輸入,輸出對應的reward期望值。 1.2 爲什麼要有critic 在前面介紹Actor時,我們定義的用來更新θ的 ▽ R
相關文章
相關標籤/搜索