強化學習-智能體與環境交互過程2

強化學習的過程是agent與環境不斷交互的過程,從環境得到反饋,然後來改變自己的行動。 智能體首先接受環境的狀態S0 智能體在S0的環境下采取行動A0 環境收到智能體的行動後從S0 變化到S1 環境對智能體的行爲做出回報reward(可正可負,表示獎勵或懲罰),R1 智能體收到獎勵後對環境採取行動A1 環境狀態接收到動作A1後由狀態S1變化到S2,並且給予獎勵R2 智能體與環境交互的過程爲 S0
相關文章
相關標籤/搜索