強化學習6

時間 2021-07-08

標籤深度學習機器學習自然語言處理網絡算法神經網絡 python 欄目系統網絡简体版

原文原文鏈接

1 關鍵詞 DDPG(Deep Deterministic Policy Gradient)：在連續控制領域經典的RL算法，是DQN在處理連續動作空間的一個擴充。具體地，從命名就可以看出，Deep是使用了神經網絡；Deterministic 表示 DDPG 輸出的是一個確定性的動作，可以用於連續動作的一個環境；Policy Gradient 代表的是它用到的是策略網絡，並且每個 step 都會更

>>阅读原文<<