深度學習算法 Q-learning 原理

Q-learning Q-learning 是 value-based 的方法,在這種方法中我們不是要訓練一個 policy,而是要訓練一個critic網絡。critic 並不直接採取行爲,只是對現有的 actor ,評價它的好壞。 Value-Fuction critic 給出了一個 value function ,代表在遇到遊戲的某個 state 後,採取策略爲的actor  一直玩到遊戲結束
相關文章
相關標籤/搜索