【RL從入門到放棄】【十五】

時間 2021-01-16

原文原文鏈接

1、基於策略搜索的RL 之前介紹的都是基於值函數的RL，通過神經網絡來畢竟值函數，然後通過greedy策略或者貪婪策略去選擇action，基於值函數的RL存在一個缺陷，那就是動作空間必須是有限的且是離散的，當動作空間是連續的或者無窮大時便無法處理。此時基於策略搜索的RL就開始起到作用了實際上覺得上面這個分類有點怪怪的在不同的情形下，累積回報的期望是否最大的衡量方式是不同的分類其中應該還有逆