random大坑

最近在入門強化學習,在寫使用DQN學習CartPole時,出現了一個神奇的事情。 我幾乎把代碼改的和參考程序一模一樣了,結果參考程序跑出來完全正常,而我的程序跑出來就是這個鬼樣子…… 就是loss一直在降低,但是reward一直在9左右徘徊,甚至expected average reward穩步下降…… 因爲是python新手入門+深度學習新手入門,所以現在只會照着別人的代碼寫,自己用眼睛dubu
相關文章
相關標籤/搜索