【李弘毅深度強化學習】3，Q-learning (Basic Idea)

時間 2021-01-16

原文原文鏈接

這部分主要講解一下Q-learning部分的知識這裏介紹一下critic：給定一個critic，並不會明確的指出需要做出什麼動作，當給予一個actor一個策略Π的時候，critic會給出這個策略的分數，vΠ：當actor在狀態s的時候選擇策略Π，之後衡量這個actor在這個狀態s的價值。中間這個圖片的v值就是很大的，因爲還有很多怪沒有打，並且還有阻擋敵人的盾牌，但是右邊這個圖片的vΠ值就比較低，

>>阅读原文<<