強化學習之Q-learning算法實戰

實戰內容: 1、一維探寶 2、二維探寶       一、實際效果: 一維探寶: 二維探寶:       二、Q-learning算法: 輸入:      環境E:用於對機器人做出的動作進行反饋,反饋當前獎勵r(本設計中,規定拿到寶藏纔有獎勵,落入陷阱獲得負獎勵,其餘無獎勵)與下個狀態state'。如實際效果中的橫向軸與棋盤      動作空間A:一維中['left', 'right'];二維中[‘
相關文章
相關標籤/搜索