強化學習——On-policy

時間 2021-01-13

原文原文鏈接

目錄三個基本概念——哪些是可變的 Actor的決策——神經網絡分類器一次game——trajectory發生的概率 trajectory的reward和reward的期望 action的梯度 n次遊戲，每次遊戲t次行爲，所有行爲發生的概率乘以它的效果。參數更新 n次遊戲的收集結果只用一次，之後使用更新後的action 實現的時候類似於一個分類器讓reward細化到每個action 的兩個簡

>>阅读原文<<