強化學習(五)---基於模型的強化學習實戰

有一個4*4的矩陣,0和15代表出口 結果輸出第一個矩陣一共輸出16個向量,每個向量裏面的位置代表,在當前狀態往哪裏走比較好,第二個矩陣對第一個矩陣進行統計處理,更加直觀,也是表示在16個狀態,每個位置最好的動作方向 參考資料:唐宇迪視頻
相關文章
相關標籤/搜索