從Q_Learning看強化學習

時間 2021-01-01

標籤 Python # 強化學習 python 強化學習 Q_Learning gym 欄目 Python 简体版

原文原文鏈接

原文地址分類目錄——強化學習 Q值 Q值是一個與狀態s和動作a相關的值，表示的意義爲在狀態s下選擇動作a的程度，但應該注意它不同於強化學習中的回報R，回報是局部的，只在當下的狀態上，相當於到達了某個成就點？Q值是全局性的，當下的Q值受到後續所有Q值的影響。兩者之間存在着正的相關關係，選擇Q值最大的動作，獲得的總回報是最大的。下面是Q-Learning更新的兩種表示方式，它們是等價的從1式中可

>>阅读原文<<