Q-learning如何處理連續的動作?

文章目錄 1、 窮舉action 2、使用梯度上升求Q value 3、Normalized Advantage Functions(NAF) 普通的Q-learning比policy gradient比較容易實現,但是在處理連續動作(比如方向盤要轉動多少度)的時候就會顯得比較吃力。 因爲如果action是離散的幾個動作,那就可以把這幾個動作都代到Q-function去算Q-value。但是如果a
相關文章
相關標籤/搜索