深度學習算法 Q-learning 原理

時間 2021-01-13

標籤算法語音合成简体版

原文原文鏈接

Q-learning Q-learning 是 value-based 的方法，在這種方法中我們不是要訓練一個 policy，而是要訓練一個critic網絡。critic 並不直接採取行爲，只是對現有的 actor ，評價它的好壞。 Value-Fuction critic 給出了一個 value function ，代表在遇到遊戲的某個 state 後，採取策略爲的actor 一直玩到遊戲結束

>>阅读原文<<