Q_learning簡介與實例

一、算法思想 QLearning是強化學習算法中value-based的算法,Q即爲在某一環境下,Q(state,action)在某一時刻的 s 狀態下(s∈S),採起 動做a (a∈A)動做可以得到收益的指望,環境會根據agent的動做反饋相應的回報reward r(分數)。python 因此算法的主要思想就是將State與Action構建成一張Q-table來存儲Q值,而後根據Q值來選取可以得
相關文章
相關標籤/搜索