強化學習與監督學習的區別在於,監督學習的每條樣本都有一個獨立的label,而強化學習的獎勵(label)是有延後性,每每須要等這個回合結束才知道輸贏學習
PG基於如下假定:spa
若是隻在遊戲終結時纔有獎勵和懲罰,該回合贏了,這個回合的全部樣本都是有""偏正的",反之則該回合全部樣本都是「偏負的」遊戲
距離贏的那刻越近,貢獻越大,越遠貢獻越小,通常採起指數衰減it
貢獻大小則體如今對模型參數的調整步長上,具體操做有兩種,一種是直接在每一個樣本的loss上乘以貢獻大小,第二是先記下每一個樣本對模型參數的梯度,再依次乘以貢獻大小來調整,兩種方法異曲同工class
PG是按照機率分佈來隨機選擇動做的,其中已經包含了探索部分方法