RL的分類

文章目錄 RL算法的分類 1. 分類標準一 2. 分類標準二 2.1 基於model-free的分類標準二 Policy Optimization Q-Learning On-policy 和 Off-policy RL算法的分類 1. 分類標準一 從「是否能對環境建模」出發,RL可以被劃分爲 Model-Free 和Model-Based. 二者之間的區別就是 agent能不能爲環境建模,也就是
相關文章
相關標籤/搜索