Lee Hung-yi強化學習 | (5) Q-learning用於連續動作 (NAF算法)

Lee Hung-yi強化學習專欄系列博客主要轉載自CSDN博主 qqqeeevvv,原專欄地址 課程視頻 課件地址 普通的Q-learning比policy gradient比較容易實現,但是在處理連續動作(比如方向盤要轉動多少度)的時候就會顯得比較吃力。 因爲如果action是離散的幾個動作,那就可以把這幾個動作都代到Q-function去算Q-value。但是如果action是連續的,此時a
相關文章
相關標籤/搜索