最近又入坑RL了,要搞AutoML就要學會RL,真的是心累。。函數
MDP裏面比較重要的就是狀態值函數和動做-狀態值函數吧,而後再求最優狀態值函數和最優動做狀態值函數,狀態值函數的公式推導一開始不懂,卡在了一個地方,如今記下來,blog
很關鍵的一個在於「和的指望等於指望的和」im