強化學習8.10

8.10推出算法 推出算法是基於應用於模擬軌跡的蒙特卡羅控制的決策時間規劃算法,所有模擬軌跡都在當前環境狀態下開始。他們通過平均從每個可能的行動開始的許多模擬軌跡的返回值然後遵循給定的策略來估計給定策略的行動值。當動作值估計被認爲足夠準確時,執行具有最高估計值的動作(或動作之一),之後從所得到的下一狀態重新執行該過程。正如Tesauro和Galperin(1997)所解釋的那樣,他們嘗試使用推出算
相關文章
相關標籤/搜索