強化學習之Q-learning算法實戰

時間 2021-08-15

原文原文鏈接

實戰內容： 1、一維探寶 2、二維探寶一、實際效果：一維探寶：二維探寶：二、Q-learning算法：輸入：環境E：用於對機器人做出的動作進行反饋，反饋當前獎勵r（本設計中，規定拿到寶藏纔有獎勵，落入陷阱獲得負獎勵，其餘無獎勵）與下個狀態state'。如實際效果中的橫向軸與棋盤動作空間A：一維中['left', 'right']；二維中[‘

>>阅读原文<<