強化學習-馬爾科夫及Q-learning及python代碼實現

時間 2021-01-01

原文原文鏈接

馬爾科夫決策過程馬爾科夫決策過程由5個元素構成： S：表示狀態集（states） A：表示一組動作（actions） P：表示狀態轉移概率.a表示在當前sES狀態下，經過aEA作用後，會轉移到的其他狀態的概率分佈情況 R：獎勵函數（reward function）表示agent採取某個動作後的即時獎勵46.2 y：折扣係數意味着當下的reward比未來反饋的reward更重要 1.智能體初始狀態

>>阅读原文<<