強化學習Q-Learning算法

時間 2021-01-01

原文原文鏈接

強化學習Q-Learning算法前言基本概念基本概念遞推關係 Q-learning基本原理前言學習這個算法有一段時間了，但是因爲自己犯懶一直沒有整理。現整理一下，一方面有剛入門的同學可以參考，另一方面哪裏寫錯或者理解不深的還請大家及時指正。基本概念基本概念首先列出一些強化學習中的基本概念，主要是爲了幫助自己回憶起學習這個算法的過程。狀態值函數：智能體在狀態 s s s 處的累計

>>阅读原文<<