Value function approximation

時間 2021-01-02

原文原文鏈接

前面的一篇博客:Model-free control：如何從經驗中學習一個好的策略到目前爲止，我們都假設了可以將價值函數或state-action價值(即Q函數)表示成向量或者矩陣表格表示法很多現實世界的問題會有巨大的狀態空間和/或動作空間表格表示法是不夠用(insufficient)的回顧：強化學習包括 Optimization(優化) Delayed consequence(效果

>>阅读原文<<