強化學習第九章總結,總結到9.3

這一章採取函數近似的方法,前面有提到過,狀態太多的時候會考慮把策略(存疑求證,記憶裏這裏應該是策略,但這章提的是v函數)函數pi表示成狀態的函數,只要函數的參數比狀態數要少,就能起到節省空間的作用。   簡單寫作 v_pi(s, w) = v_pi(s)     這裏的v可以是一個關於特徵的線性方程,w是特徵的權重,更普遍地說,v可能是一個多層神經網絡而w是每一層的權重。通過調整權重。我們可以近似
相關文章
相關標籤/搜索