強化學習入門

時間 2021-01-08

標籤 DRL 神經網絡強化學習機器學習简体版

原文原文鏈接

1.基本概念 state：當前環境的狀態+agent自身的狀態，是一個隨機變量，受到環境的影響 policy：根據當前state給出相應action的概率 State transition：在給定state，action下，環境給出下一個state的概率 return：回報，表示從t時刻開始未來所有回報的折扣累積，是一個隨機變量，隨機性來自於未來所有state和action Action-valu

>>阅读原文<<