強化學習(2)---馬爾科夫決策

時間 2021-01-11

原文原文鏈接

需要知道的一些概念馬爾科夫決策過程馬爾科夫鏈馬爾科夫獎勵過程馬爾科夫中的價值函數馬爾科夫決策過程的控制：policy iteration value iteration 基於價值函數的agent：不使用決策函數，在價值函數中推測police 基於police的agent：不使用價值函數兩個都用通過模型使用不同分類：看會否有環境轉移模型馬爾科夫決策過程是強化學習的基本框架，環境是全