價值函數近似

價值函數逼近 在傳統TD算法、Q-leanring中,V價值和Q價值通常是用表格存儲,不適用於大規模問題。可以採用近似器來擬合真實的價值函數。 Q ( s , a , θ ) ≈ Q π ( s , a ) Q(s,a,\theta) ≈Q_π(s,a) Q(s,a,θ)≈Qπ​(s,a) V ( s , θ ) ≈ V π ( s ) V(s,\theta) ≈V_π(s) V(s,θ)≈Vπ​
相關文章
相關標籤/搜索