強化學習之蒙特卡洛方法

時間 2021-01-13

原文原文鏈接

MC 預測：狀態值解決預測問題的算法會確定策略 \piπ 對應的值函數 v_\pivπ（或 q_\piqπ）。通過與環境互動評估策略 \piπ 的方法分爲兩大類別：在線策略方法使智能體與環境互動時遵守的策略 \piπ 與要評估（或改進）的策略相同。離線策略方法使智能體與環境互動時遵守的策略 bb（其中 b\neq\pib≠π）與要評估（或改進）的策略不同。狀態 s\in\mathca

>>阅读原文<<