揭祕深度強化學習-5 評估獎勵之Q-learning算法

時間 2021-01-12

原文原文鏈接

看完覺得深受啓發的一篇文章，根據自己的理解翻譯過來留以後再次翻看原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ Q-learning算法在Q-learning算法中，我們定義一個函數Q(s,a) 來表示當我們在狀態s採取行動a且之後都是最理想狀態，我們預期未來能獲得的衰減未來獎勵 Q(s,a)可以視爲s狀態

>>阅读原文<<