強化學習5

時間 2021-06-06

標籤深度學習機器學習人工智能简体版

原文原文鏈接

Sparse Reward and Imitation Learning 1 關鍵詞 reward shaping：在我們的agent與environment進行交互時，我們人爲的設計一些reward，從而「指揮」agent，告訴其採取哪一個action是最優的，而這個reward並不是environment對應的reward，這樣可以提高我們estimate Q-function時的準確性。

>>阅读原文<<