【RL系列】馬爾可夫決策過程——狀態價值評價與動作價值評價

時間 2020-12-30

原文原文鏈接

請先閱讀上兩篇文章：【RL系列】馬爾可夫決策過程中狀態價值函數的一般形式【RL系列】馬爾可夫決策過程與動態編程狀態價值函數，顧名思義，就是用於狀態價值評價（SVE）的。典型的問題有「格子世界（GridWorld）」遊戲（什麼是格子世界？可以參考：Dynamic programming in Python），高爾夫遊戲，這類問題的本質還是求解最優路徑，共性是在學習過程中每一步都會由一個動作