強化學習——On-policy

目錄 三個基本概念——哪些是可變的 Actor的決策——神經網絡分類器 一次game——trajectory發生的概率 trajectory的reward和reward的期望 action的梯度 n次遊戲,每次遊戲t次行爲,所有行爲發生的概率乘以它的效果。 參數更新 n次遊戲的收集結果只用一次,之後使用更新後的action 實現的時候類似於一個分類器 讓reward細化到每個action 的兩個簡
相關文章
相關標籤/搜索