back up與converge

RL中的back up是什麼意思呢?google了一圈也沒搜出來,後來在Sutton的書中找到了。 AI的本質是search,RL可以看成一棵樹,每一個node是某一個state或action,每一層表示一個時刻t,則下一層表示t+1.從根,也就是s0,走到target state的葉子結點,就完成了一個episode,每走一步就是一個step,那麼back up是什麼呢? Bellman fun
相關文章
相關標籤/搜索