DRL(四)——Value Function

時間 2021-01-07

標籤 DRL 简体版

原文原文鏈接

感覺這一講的內容大多都在複習之前我在RL裏學過的內容，而且我發現，相比於David Silver 的強化學習內容，這個伯克利的DRL課程順序剛好相反。RL是由表格型開始，講了V(s) 和 Q(s, a)，之後再講的Function approximator，而DRL是先Policy Gradient 然後才提到Q Function。雖然內容都差不多，但是我還沒明白不同的順序是否側重點不同，而兩者

>>阅读原文<<