幾句話總結一個算法之Policy Gradients

 

  • 強化學習與監督學習的區別在於,監督學習的每條樣本都有一個獨立的label,而強化學習的獎勵(label)是有延後性,每每須要等這個回合結束才知道輸贏學習

  • Policy Gradients(PG)計算某個狀態下全部策略的分佈機率,相似於經典分類問題給每一個類別預測一個機率,好的PG應該給優良的策略分配較高的機率
  • PG基於如下假定:spa

    • 若是隻在遊戲終結時纔有獎勵和懲罰,該回合贏了,這個回合的全部樣本都是有""偏正的",反之則該回合全部樣本都是「偏負的」遊戲

    • 距離贏的那刻越近,貢獻越大,越遠貢獻越小,通常採起指數衰減it

    • 若是在遊戲每一個時刻都有獎勵,那麼當前行動貢獻就是後面每一個時刻獎勵的衰減累計之和
  • 貢獻大小則體如今對模型參數的調整步長上,具體操做有兩種,一種是直接在每一個樣本的loss上乘以貢獻大小,第二是先記下每一個樣本對模型參數的梯度,再依次乘以貢獻大小來調整,兩種方法異曲同工class

  • PG是按照機率分佈來隨機選擇動做的,其中已經包含了探索部分方法

相關文章
相關標籤/搜索