深度強化學習task03

時間 2021-05-20

標籤 DRL 強化學習深度學習算法简体版

原文原文鏈接

1. Q-learning **Q-learning **是value-based 的方法。在value-based 的方法裏面，我們 learn 的不是 policy，我們要 learn 的是一個critic 。 Critic 並不直接採取行爲，它想要做的事情是評價現在的行爲有多好或是有多不好。假設有一個actor π ，critic 就是來評價這個 actor 的 policy π 好還是不好

>>阅读原文<<