強化學習(reinforcement learning)原理

時間 2019-12-06

標籤強化學習 reinforcement learning 原理简体版

原文原文鏈接

一、簡介強化學習的任務對應一個四元組： web E=<X,A,P,R> E =< X , A , P , R > X：當前狀態 A：可採起的動做整體集合 P：各個轉移狀態的機率值 R：獎賞函數總體的過程是，對於當前狀態X，從動做集合A中選擇一個動做，做用在X上，使得X按照機率轉移函數P轉移到另一種狀態，而後環境根據獎賞函數R對動做進行反饋。強化學習在某種意義上可看做具備延遲標記信息的監督學習

>>阅读原文<<