【強化學習】Q-Learning算法詳解

時間 2020-05-23

標籤強化學習 learning 算法詳解简体版

原文原文鏈接

【強化學習】Q-Learning詳解一、算法思想 QLearning是強化學習算法中值迭代的算法，Q即爲Q（s,a）就是在某一時刻的 s 狀態下(s∈S)，採起 a (a∈A)動做可以得到收益的指望，環境會根據agent的動做反饋相應的回報reward r，因此算法的主要思想就是將State與Action構建成一張Q-table來存儲Q值，而後根據Q值來選取動做得到較大的收益。html 二、公式

>>阅读原文<<