DRL(四)——Value Function

感覺這一講的內容大多都在複習之前我在RL裏學過的內容,而且我發現,相比於David Silver 的強化學習內容,這個伯克利的DRL課程順序剛好相反。RL是由表格型開始,講了V(s) 和 Q(s, a),之後再講的Function approximator,而DRL是先Policy Gradient 然後才提到Q Function。 雖然內容都差不多,但是我還沒明白不同的順序是否側重點不同,而兩者
相關文章
相關標籤/搜索