【李宏毅-強化學習筆記】p6、Actor-Critic

時間 2021-01-21

標籤強化學習简体版

原文原文鏈接

一、policy gradient回顧 G是看到st後採取at之後獲取的收益總和，但是這個值是一個分佈值，在不同的episode中可能波動會很大。如果有足夠的數據的話，這不是一個問題，當數據不足的時候，那麼模型的波動會很大，希望用期望值來代替採樣（當前的）值。就是說，訓練一個network，輸入爲s輸出爲獎勵的期望值。二、Q_learning回顧 V是態勢評估，Q是引導選擇。三、Actor-C

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。