Lee Hung-yi強化學習 | (3) Q-learning(Basic Idea)

Lee Hung-yi強化學習專欄系列博客主要轉載自CSDN博主 qqqeeevvv,原專欄地址 課程視頻 課件地址 1. Q-Learning Q-learning 是 value-based 的方法,在這種方法中我們不是要訓練一個 policy,而是要訓練一個critic網絡。critic 並不直接採取行爲/動作,只是對現有的 actor π \pi π,評價它的好壞。 2. Value-Fu
相關文章
相關標籤/搜索