對Tabular方法的總結

sample model比distribution model模型更容易獲得 對於人工智能問題,value function, backing up value updates, and GPI是非常有用的組織規範。 上圖說到了兩個維度,第三個維度是on-policy與off-policy方法。
相關文章
相關標籤/搜索