David silver強化學習第五講-Sarsa ，Q learning（ Model-Free Control）

時間 2021-01-08

原文原文鏈接

某種程度上來說，這個課程所有的內容最後都會集中於本講內容，通過本講的學習，我們將會學習到如何訓練一個Agent，使其能夠在完全未知的環境下較好地完成任務，得到儘可能多的獎勵。本講是基礎理論部分的最後一講，本講以後的內容都是關於實際應用強化學習解決大規模問題的理論和技巧。本講的技術核心主要基於先前一講以及更早的一些內容，如果對先前的內容有深刻的理解，那麼理解本講內容將會比較容易。簡介 Introd