【強化學習】時間差分法(TD)

引用 知乎專欄 天津包子餡兒的知乎html 一、前言 以前的強化學習分類中介紹了幾種強化學習方法的分類,今天就說一下其中重要的算法思想時間差分法,TD與蒙特卡羅法主要是在值函數的更新上有所差別,咱們能夠先看下圖 web 動態規劃法: 須要一個徹底已知的環境,須要狀態之間的轉換機率,而且V(S)狀態值函數的估計是自舉的(bootstrapping),即當前狀態值函數的更新依賴於已知的其餘狀態值函數,
相關文章
相關標籤/搜索