《reinforcement learning：an introduction》第六章《Temporal-Difference Learning》總結

時間 2021-01-02

標籤增強學習 sutton RL reinforcement learni an introduction 简体版

原文原文鏈接

由於組裏新同學進來，需要帶着他入門RL，選擇從silver的課程開始。對於我自己，增加一個仔細閱讀《reinforcement learning：an introduction》的要求。因爲之前讀的不太認真，這一次希望可以認真一點，將對應的知識點也做一個簡單總結。注意：本章考慮model-free的prediction和control，仍然有兩種方法，policy iteration和val

>>阅读原文<<