《ARPG遊戲深度強化學習》序貫決策問題、完成ARPG世界裏的遊戲代碼實踐

時間 2020-07-26

標籤 ARPG遊戲深度強化學習決策問題完成 arpg 世界遊戲代碼實踐欄目遊戲简体版

原文原文鏈接

序貫決策問題圖示： python 馬爾科夫決策過程序貫決策，主要的方法是：馬爾科夫決策過程。web 一個馬爾可夫過程叫：MDP。一個MDP由一個五元組構成：S A P R r算法 S 是全部狀態的集合數據庫 A 是全部動做的集合數組 P 是某狀態S’在某A‘動做下的轉移機率策略P就是在狀態S下作A的機率多大。dom R 是獎勵 svg r 是回報有時候也用G標示（gain）函數當前

>>阅读原文<<