深度強化學習task05

1. 稀疏獎勵 如果環境中的 reward 非常 sparse,reinforcement learning 的問題就會變得非常的困難,但是人類可以在非常 sparse 的 reward 上面去學習。我們的人生通常多數的時候,我們就只是活在那裏,都沒有得到什麼 reward 或是 penalty。但是,人還是可以採取各種各式各樣的行爲。所以,一個真正厲害的 AI 應該能夠在 sparse rewa
相關文章
相關標籤/搜索