【李宏毅-強化學習筆記】p6、Actor-Critic

一、policy gradient回顧 G是看到st後採取at之後獲取的收益總和,但是這個值是一個分佈值,在不同的episode中可能波動會很大。如果有足夠的數據的話,這不是一個問題,當數據不足的時候,那麼模型的波動會很大,希望用期望值來代替採樣(當前的)值。就是說,訓練一個network,輸入爲s輸出爲獎勵的期望值。 二、Q_learning回顧 V是態勢評估,Q是引導選擇。 三、Actor-C
相關文章
相關標籤/搜索