2020李宏毅學習筆記——69 RL Advanced Version 5.Q-learning(Continuous Action)

連續行動: 在某些情況下,action是一個連續向量(比如駕駛類遊戲,需要決定一個連續的角度) 在這種情況下,Q learning 並不是一個用來尋找最佳action的好方法 解決方式一: 採樣一系列行動,看哪個行動會返回最大的Q值 解決方式二: 使用梯度上升來解決這個優化問題(具有較高的計算成本) 解決方式三: 設計一個網絡來使得這個優化過程更簡單 這裏 ∑ 和 μ 是高斯分佈的方差和均值,因此
相關文章
相關標籤/搜索