A3C & DPPO

時間 2021-01-12

原文原文鏈接

跟着莫煩老師的強化學習教程時做的筆記，原貼：https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/ A3C Asynchronous Advantage Actor-Critic 一句話概括 A3C: Google DeepMind 提出的一種解決 Actor-Critic 不收斂問題的算法. 它會創建多個並行的