《Reinforcement Learning》讀書筆記 4：動態規劃（Dynamic Programing）

時間 2021-01-08

標籤強化學習 reinforce learning 讀書筆記動態規劃 dynamic programming 简体版

原文原文鏈接

《Reinforcement Learning: An Introduction》讀書筆記 - 目錄爲了求解價值函數，或更一步得到最優策略，可以解Bellman方程組，但是當狀態集太大時，求解的複雜度太高，所以這一章主要介紹了一些迭代的方式來逼近精確解，在不損失精度的情況下，大幅減少複雜度（對state-value function來說，一般是 O(|S|k) O ( | S | k ) ，即

>>阅读原文<<