強化學習(2)---馬爾科夫決策

需要知道的一些概念 馬爾科夫決策過程 馬爾科夫鏈 馬爾科夫獎勵過程 馬爾科夫中的價值函數 馬爾科夫決策過程的控制:policy iteration value iteration 基於價值函數的agent:不使用決策函數,在價值函數中推測police 基於police的agent:不使用價值函數 兩個都用 通過模型使用不同分類: 看會否有環境轉移模型 馬爾科夫決策過程是強化學習的基本框架,環境是全
相關文章
相關標籤/搜索