【強化學習】時間差分法(TD)

時間 2020-12-30

標籤時間差分法简体版

原文原文鏈接

引用知乎專欄天津包子餡兒的知乎 1、前言之前的強化學習分類中介紹了幾種強化學習方法的分類，今天就說一下其中重要的算法思想時間差分法，TD與蒙特卡羅法主要是在值函數的更新上有所差異，我們可以先看下圖動態規劃法：需要一個完全已知的環境，需要狀態之間的轉換概率，並且V(S)狀態值函數的估計是自舉的(bootstrapping)，即當前狀態值函數的更新依賴於已知的其他狀態值函數，也就是使用bel

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。