【強化學習】時間差分法(TD)

時間 2019-12-10

標籤強化學習時間差分法简体版

原文原文鏈接

引用知乎專欄天津包子餡兒的知乎html 一、前言以前的強化學習分類中介紹了幾種強化學習方法的分類，今天就說一下其中重要的算法思想時間差分法，TD與蒙特卡羅法主要是在值函數的更新上有所差別，咱們能夠先看下圖 web 動態規劃法：須要一個徹底已知的環境，須要狀態之間的轉換機率，而且V(S)狀態值函數的估計是自舉的(bootstrapping)，即當前狀態值函數的更新依賴於已知的其餘狀態值函數，

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。