深度強化學習task05

時間 2021-06-07

原文原文鏈接

1. 稀疏獎勵如果環境中的 reward 非常 sparse，reinforcement learning 的問題就會變得非常的困難，但是人類可以在非常 sparse 的 reward 上面去學習。我們的人生通常多數的時候，我們就只是活在那裏，都沒有得到什麼 reward 或是 penalty。但是，人還是可以採取各種各式各樣的行爲。所以，一個真正厲害的 AI 應該能夠在 sparse rewa

>>阅读原文<<