《強化學習導論》之doubleQ-Learning的理解

時間 2021-01-12

標籤 Reinforcement Learning 強化學習雙Q學習 doubleQLearning q-learning 简体版

原文原文鏈接

我的理解是這個最大化偏差來源於Q學習中的求取的最大化這個步驟可能得到的值不準確。然後這個期望，我覺得是講動作和值解耦，然後從E的表達式來看，求得期望就是從另一個Q得到的動作的期望，默認第一個Q學到的是最大動作，然後第二個Q只求期望。兩個沒有干擾同時，在周博磊的視頻課程中，也可以認識到，因爲我們採取的max這個操作的時候，用的還是待優化的東西，因此不是很準確，有偏差。

>>阅读原文<<