4.蒙特卡洛（Monte-Carlo, MC）+時序差分（Temporal Difference, TD）

時間 2020-12-30

標籤深度強化學習強化學習简体版

原文原文鏈接

目錄深度強化學習目錄簡介之前講的PG算法和PPO算法，都是Policy-based的方法，接下來我們要講Value-based的方法。之前說過了，P-B方法和V-B方法的區別在於前者訓練的是策略本身（actor），而後者訓練的是一種評判標準（critic）。critic能根據你輸入的狀態/動作，憑藉策略 π \pi π來輸出對應的值函數。值函數有兩種，一種是V（狀態-值函數），一種是Q（狀態

>>阅读原文<<