強化學習(五)---基於模型的強化學習實戰

有一個4*4的矩陣,0和15表明出口3d 結果輸出第一個矩陣一共輸出16個向量,每一個向量裏面的位置表明,在當前狀態往哪裏走比較好,第二個矩陣對第一個矩陣進行統計處理,更加直觀,也是表示在16個狀態,每一個位置最好的動做方向視頻 參考資料:唐宇迪視頻blog
相關文章
相關標籤/搜索