揭祕深度強化學習-5 評估獎勵之Q-learning算法

看完覺得深受啓發的一篇文章,根據自己的理解翻譯過來留以後再次翻看 原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ Q-learning算法 在Q-learning算法中,我們定義一個函數Q(s,a) 來表示當我們在狀態s採取行動a且之後都是最理想狀態,我們預期未來能獲得的衰減未來獎勵 Q(s,a)可以視爲s狀態
相關文章
相關標籤/搜索