強化學習之MDP

前言

最近又入坑RL了,要搞AutoML就要學會RL,真的是心累。。函數

正文

MDP裏面比較重要的就是狀態值函數和動做-狀態值函數吧,而後再求最優狀態值函數和最優動做狀態值函數,狀態值函數的公式推導一開始不懂,卡在了一個地方,如今記下來,blog

很關鍵的一個在於「和的指望等於指望的和im

相關文章
相關標籤/搜索