2020李宏毅學習筆記——69 RL Advanced Version 5.Q-learning（Continuous Action）

時間 2021-01-13

原文原文鏈接

連續行動: 在某些情況下，action是一個連續向量（比如駕駛類遊戲，需要決定一個連續的角度）在這種情況下，Q learning 並不是一個用來尋找最佳action的好方法解決方式一: 採樣一系列行動，看哪個行動會返回最大的Q值解決方式二: 使用梯度上升來解決這個優化問題（具有較高的計算成本）解決方式三: 設計一個網絡來使得這個優化過程更簡單這裏 ∑ 和 μ 是高斯分佈的方差和均值，因此