【強化學習】Q-Learning算法詳解

【強化學習】Q-Learning詳解 一、算法思想 QLearning是強化學習算法中值迭代的算法,Q即爲Q(s,a)就是在某一時刻的 s 狀態下(s∈S),採起 a (a∈A)動做可以得到收益的指望,環境會根據agent的動做反饋相應的回報reward r,因此算法的主要思想就是將State與Action構建成一張Q-table來存儲Q值,而後根據Q值來選取動做得到較大的收益。html 二、公式
相關文章
相關標籤/搜索