《Reinforcement Learning》 讀書筆記 4:動態規劃(Dynamic Programing)

《Reinforcement Learning: An Introduction》 讀書筆記 - 目錄 爲了求解價值函數,或更一步得到最優策略,可以解Bellman方程組,但是當狀態集太大時,求解的複雜度太高,所以這一章主要介紹了一些迭代的方式來逼近精確解,在不損失精度的情況下,大幅減少複雜度(對state-value function來說,一般是 O(|S|k) O ( | S | k ) ,即
相關文章
相關標籤/搜索