【強化學習篇】--強化學習案例詳解一

1、前述spa 本文經過一個案例來說解Q-Learningblog 2、具體io 一、案例class 假設咱們須要走到5房間。im 轉變爲以下圖:先構造獎勵,達到5,即可以走得5的action則說明獎勵比較高設置成100,沒有達到5說明獎勵比較低,設置成0。db     Q-learning實現步驟:img  二、案例詳解:co   第一步的Q(1,5):最開始的Q矩陣都是零矩陣,迭代完以後Q(1
相關文章
相關標籤/搜索