強化學習實例2：MDP

時間 2019-12-04

標籤強化學習實例 mdp 简体版

原文原文鏈接

紅色塊移動到黃色，黑色爲障礙物python 馬爾科夫鏈，算法預測最好的路徑，值函數爲回報r（reward）和the discounted value of the ending statecanvas SARSA表明state, action, reward, next state和next action。it is known as an own policy Reinforcement Le

>>阅读原文<<