強化學習——(3)Q-Learning

1. Q-learning 介紹 1.1 Critic critic 本身並沒有辦法決定要採取哪一個action,其主要用來完成:衡量一個action到底好不好。只能基於當前的state,輸出採取這個action,預期到整個遊戲結束時候的累積得分。 簡單的說,critic並不能衡量一個state(記爲 s s s)的好壞,只能衡量在give某個state,接下來使用action(記爲 π \pi
相關文章
相關標籤/搜索