Q-learning如何處理連續的動作？

時間 2021-07-13

原文原文鏈接

文章目錄 1、窮舉action 2、使用梯度上升求Q value 3、Normalized Advantage Functions（NAF）普通的Q-learning比policy gradient比較容易實現，但是在處理連續動作（比如方向盤要轉動多少度）的時候就會顯得比較吃力。因爲如果action是離散的幾個動作，那就可以把這幾個動作都代到Q-function去算Q-value。但是如果a

>>阅读原文<<