強化學習5

Sparse Reward and Imitation Learning 1 關鍵詞 reward shaping: 在我們的agent與environment進行交互時,我們人爲的設計一些reward,從而「指揮」agent,告訴其採取哪一個action是最優的,而這個reward並不是environment對應的reward,這樣可以提高我們estimate Q-function時的準確性。
相關文章
相關標籤/搜索