強化學習之蒙特卡洛方法

MC 預測:狀態值 解決預測問題的算法會確定策略 \piπ 對應的值函數 v_\pivπ​(或 q_\piqπ​)。 通過與環境互動評估策略 \piπ 的方法分爲兩大類別: 在線策略方法使智能體與環境互動時遵守的策略 \piπ 與要評估(或改進)的策略相同。 離線策略方法使智能體與環境互動時遵守的策略 bb(其中 b\neq\pib≠π)與要評估(或改進)的策略不同。 狀態 s\in\mathca
相關文章
相關標籤/搜索