強化學習-智能體與環境交互過程2

時間 2021-01-11

原文原文鏈接

強化學習的過程是agent與環境不斷交互的過程，從環境得到反饋，然後來改變自己的行動。智能體首先接受環境的狀態S0 智能體在S0的環境下采取行動A0 環境收到智能體的行動後從S0 變化到S1 環境對智能體的行爲做出回報reward（可正可負，表示獎勵或懲罰），R1 智能體收到獎勵後對環境採取行動A1 環境狀態接收到動作A1後由狀態S1變化到S2，並且給予獎勵R2 智能體與環境交互的過程爲 S0

>>阅读原文<<