強化學習Q-Learning算法

強化學習Q-Learning算法 前言 基本概念 基本概念 遞推關係 Q-learning基本原理 前言 學習這個算法有一段時間了,但是因爲自己犯懶一直沒有整理。現整理一下,一方面有剛入門的同學可以參考,另一方面哪裏寫錯或者理解不深的還請大家及時指正。 基本概念 基本概念 首先列出一些強化學習中的基本概念,主要是爲了幫助自己回憶起學習這個算法的過程。 狀態值函數:智能體在狀態 s s s 處的累計
相關文章
相關標籤/搜索