Value function approximation

前面的一篇博客:Model-free control:如何從經驗中學習一個好的策略 到目前爲止,我們都假設了可以將價值函數或state-action價值(即Q函數)表示成向量或者矩陣 表格表示法 很多現實世界的問題會有巨大的狀態空間 和/或 動作空間 表格表示法是不夠用(insufficient)的 回顧:強化學習包括 Optimization(優化) Delayed consequence(效果
相關文章
相關標籤/搜索