深度強化學習訓練調參方法

時間 2021-01-02

原文原文鏈接

轉載自 https://zhuanlan.zhihu.com/p/99901400 爲了保證DRL算法能夠順利收斂，policy性能達標並具有實用價值，結果有說服力且能復現，需要算法工作者在訓練前、訓練中和訓練後提供全方位一條龍服務。我記得GANs剛火起來的時候，因爲訓練難度高，有人在GitHub上專門開了repository，總結來自學術界和工業界的最新訓練經驗，各種經過或未經驗證的tricks

>>阅读原文<<