【李弘毅深度強化學習】3,Q-learning (Basic Idea)

這部分主要講解一下Q-learning部分的知識 這裏介紹一下critic:給定一個critic,並不會明確的指出需要做出什麼動作,當給予一個actor一個策略Π的時候,critic會給出這個策略的分數,vΠ:當actor在狀態s的時候選擇策略Π,之後衡量這個actor在這個狀態s的價值。中間這個圖片的v值就是很大的,因爲還有很多怪沒有打,並且還有阻擋敵人的盾牌,但是右邊這個圖片的vΠ值就比較低,
相關文章
相關標籤/搜索