強化學習/動態規劃：貝爾曼方程的解讀 Bellman Equation

時間 2021-01-02

標籤 Reinforcement Learning 強化學習算法人工智能概率論動態規劃简体版

原文原文鏈接

前言：讀書《Reinforcement Learning: An Introduction Second Edition》，讀到第三章有限馬爾科夫決策過程MDP中，提到了貝爾曼方程的理解。一開始我是有點懵逼的，現在看懂了其意思，在這裏解釋一下。本文講解 v π ( s ) = E π [ G t ∣ S t = s ] = E π [ R t + 1 + γ G t + 1 ∣ S t = s

>>阅读原文<<