【強化學習篇】--強化學習案例詳解一

一、前述 本文通過一個案例來講解Q-Learning 二、具體 1、案例 假設我們需要走到5房間。 轉變爲如下圖:先構造獎勵,達到5,即能夠走得5的action則說明獎勵比較高設置成100,沒有達到5說明獎勵比較低,設置成0。     Q-learning實現步驟:  2、案例詳解:   第一步的Q(1,5):最開始的Q矩陣都是零矩陣,迭代完之後Q(1,5)是100 第二次迭代:依舊是隨機 收斂的
相關文章
相關標籤/搜索