強化學習-價值功能

代碼和演示可用。 本文探討了強化學習中的狀態,動作和獎勵是什麼,以及代理如何通過模擬學習來確定在任何給定狀態下采取的最佳動作。 直覺 經過一整天的工作後,您要在兩種選擇之間做出選擇:回家然後寫一篇文章或在酒吧和朋友一起閒逛。 如果您選擇與朋友一起出去玩,您的朋友會讓您感到開心; 而回家寫一篇文章,您會在漫長的一天工作後感到疲倦。 在這個例子中,享受自己是一​​種獎勵,而感到疲倦則被視爲一種消極的獎
相關文章
相關標籤/搜索