強化學習第6課:什麼是 Crossentropy 方法

上次講了馬爾科夫決策過程,今天讓咱們來看看要如何求解這個過程?web 求解方法不止有一個, 有一種思路是,咱們有一個 policy,即有了行爲和狀態的機率分佈。 對其進行初始化,能夠是隨機的,也能夠根據具體問題用一些先驗知識初始化。 而後想要改進這個 policy,能夠經過得到數據,玩幾回遊戲,不斷重複,policy 會隨着這個過程調整變得愈來愈好。算法 符合這個思想的有一個算法叫作: cross
相關文章
相關標籤/搜索