【強化學習】時間差分法(TD)

引用 知乎專欄 天津包子餡兒的知乎 1、前言 之前的強化學習分類中介紹了幾種強化學習方法的分類,今天就說一下其中重要的算法思想時間差分法,TD與蒙特卡羅法主要是在值函數的更新上有所差異,我們可以先看下圖 動態規劃法: 需要一個完全已知的環境,需要狀態之間的轉換概率,並且V(S)狀態值函數的估計是自舉的(bootstrapping),即當前狀態值函數的更新依賴於已知的其他狀態值函數,也就是使用bel
相關文章
相關標籤/搜索