【RL從入門到放棄】【十五】

1、基於策略搜索的RL 之前介紹的都是基於值函數的RL,通過神經網絡來畢竟值函數,然後通過greedy策略或者貪婪策略去選擇action,基於值函數的RL存在一個缺陷,那就是動作空間必須是有限的且是離散的,當動作空間是連續的或者無窮大時便無法處理。此時基於策略搜索的RL就開始起到作用了 實際上覺得上面這個分類有點怪怪的 在不同的情形下,累積回報的期望是否最大的衡量方式是不同的 分類 其中應該還有逆
相關文章
相關標籤/搜索