強化學習(reinforcement learning)原理

時間 2021-01-02

原文原文鏈接

1、簡介強化學習的任務對應一個四元組： E=<X,A,P,R> E =< X , A , P , R > X：當前狀態 A：可採取的動作總體集合 P：各個轉移狀態的概率值 R：獎賞函數整體的過程是，對於當前狀態X，從動作集合A中選擇一個動作，作用在X上，使得X按照概率轉移函數P轉移到另外一種狀態，然後環境根據獎賞函數R對動作進行反饋。強化學習在某種意義上可看作具有延遲標記信息的監督學習，它與

>>阅读原文<<