Lee Hung-yi強化學習 | (5) Q-learning用於連續動作 (NAF算法)

時間 2021-01-13

標籤 Lee Hung-yi強化學習简体版

原文原文鏈接

Lee Hung-yi強化學習專欄系列博客主要轉載自CSDN博主 qqqeeevvv，原專欄地址課程視頻課件地址普通的Q-learning比policy gradient比較容易實現，但是在處理連續動作（比如方向盤要轉動多少度）的時候就會顯得比較吃力。因爲如果action是離散的幾個動作，那就可以把這幾個動作都代到Q-function去算Q-value。但是如果action是連續的，此時a

>>阅读原文<<