強化學習(Reinforcement Learning)

https://www.zhihu.com/topic/20039099/introhtml 強化學習 強化學習主體主要由智能體(Agent)、環境(Environment)、狀態(State)、動做(Action)、獎勵(Reward)組成。web 智能體執行某個動做後,環境將會轉換到一個新的狀態,對於該新的狀態環境給出獎勵信號,隨後,智能體根據新的狀態和環境反饋的獎勵,按照必定的策略執行新的動
相關文章
相關標籤/搜索