《強化學習導論》之doubleQ-Learning的理解

我的理解是這個最大化偏差來源於Q學習中的求取的最大化這個步驟可能得到的值不準確。然後這個期望,我覺得是講動作和值解耦,然後從E的表達式來看,求得期望就是從另一個Q得到的動作的期望,默認第一個Q學到的是最大動作,然後第二個Q只求期望。兩個沒有干擾 同時,在周博磊的視頻課程中,也可以認識到,因爲我們採取的max這個操作的時候,用的還是待優化的東西,因此不是很準確,有偏差。
相關文章
相關標籤/搜索