強化學習-馬爾科夫及Q-learning及python代碼實現

馬爾科夫決策過程 馬爾科夫決策過程由5個元素構成: S:表示狀態集(states) A:表示一組動作(actions) P:表示狀態轉移概率.a表示在當前sES狀態下,經過aEA作用後,會轉移到的其他狀態的概率分佈情況 R:獎勵函數(reward function)表示agent採取某個動作後的即時獎勵46.2 y:折扣係數意味着當下的reward比未來反饋的reward更重要 1.智能體初始狀態
相關文章
相關標籤/搜索