【RL系列】馬爾可夫決策過程——狀態價值評價與動作價值評價

請先閱讀上兩篇文章: 【RL系列】馬爾可夫決策過程中狀態價值函數的一般形式 【RL系列】馬爾可夫決策過程與動態編程   狀態價值函數,顧名思義,就是用於狀態價值評價(SVE)的。典型的問題有「格子世界(GridWorld)」遊戲(什麼是格子世界?可以參考:Dynamic programming in Python),高爾夫遊戲,這類問題的本質還是求解最優路徑,共性是在學習過程中每一步都會由一個動作
相關文章
相關標籤/搜索