從Q_Learning看強化學習

原文地址 分類目錄——強化學習 Q值 Q值是一個與狀態s和動作a相關的值,表示的意義爲在狀態s下選擇動作a的程度,但應該注意它不同於強化學習中的回報R,回報是局部的,只在當下的狀態上,相當於到達了某個成就點?Q值是全局性的,當下的Q值受到後續所有Q值的影響。兩者之間存在着正的相關關係,選擇Q值最大的動作,獲得的總回報是最大的。 下面是Q-Learning更新的兩種表示方式,它們是等價的 從1式中可
相關文章
相關標籤/搜索