Q_learning簡介與實例

時間 2020-05-23

標籤 learning 簡介實例简体版

原文原文鏈接

一、算法思想 QLearning是強化學習算法中value-based的算法，Q即爲在某一環境下，Q（state,action）在某一時刻的 s 狀態下(s∈S)，採起動做a (a∈A)動做可以得到收益的指望，環境會根據agent的動做反饋相應的回報reward r(分數)。python 因此算法的主要思想就是將State與Action構建成一張Q-table來存儲Q值，而後根據Q值來選取可以得

>>阅读原文<<