《reinforcement learning:an introduction》第六章《Temporal-Difference Learning》總結

由於組裏新同學進來,需要帶着他入門RL,選擇從silver的課程開始。 對於我自己,增加一個仔細閱讀《reinforcement learning:an introduction》的要求。 因爲之前讀的不太認真,這一次希望可以認真一點,將對應的知識點也做一個簡單總結。 注意:本章考慮model-free的prediction和control,仍然有兩種方法,policy iteration和val
相關文章
相關標籤/搜索