【強化學習篇】--強化學習案例詳解一

時間 2021-01-15

原文原文鏈接

一、前述本文通過一個案例來講解Q-Learning 二、具體 1、案例假設我們需要走到5房間。轉變爲如下圖：先構造獎勵，達到5，即能夠走得5的action則說明獎勵比較高設置成100，沒有達到5說明獎勵比較低，設置成0。 Q-learning實現步驟： 2、案例詳解：第一步的Q(1,5)：最開始的Q矩陣都是零矩陣，迭代完之後Q（1,5）是100 第二次迭代：依舊是隨機收斂的

>>阅读原文<<