李宏毅機器學習——學習筆記(24) Deep Reinforcement Learning

Reinforcement Learning:分爲兩種Policy-based 和 Value-based方法 利用gradient進行求解 爲什麼要用log? 如果所有的R都是正的,那可以加上一個Baseline,使得調整參數過程中,可以增加或者減少。
相關文章
相關標籤/搜索