強化學習簡單示例——SARSA算法

【注】我也是剛剛接觸強化學習的內容,對這部分理解不是很透徹,代碼寫的可能也會有不對或不完善的地方,還請各位批評指正。這個問題是個做業,這是我本身編的代碼,老師提供的答案出來後再更。ios 【問題描述】 圖中S爲起點,G爲終點,每次能前、後、左、右、左前、左後、右前、右後移動。當到達第4-9列的某一列時,會在某一狀態的基礎上向上被吹一格。如某一時刻到達了第4行第4列,則會被吹到第3行第4列。在第4行
相關文章
相關標籤/搜索