強化學習第6課：什麼是 Crossentropy 方法

時間 2020-05-16

標籤強化學習什麼 crossentropy 方法简体版

原文原文鏈接

上次講了馬爾科夫決策過程，今天讓咱們來看看要如何求解這個過程？web 求解方法不止有一個，有一種思路是，咱們有一個 policy，即有了行爲和狀態的機率分佈。對其進行初始化，能夠是隨機的，也能夠根據具體問題用一些先驗知識初始化。而後想要改進這個 policy，能夠經過得到數據，玩幾回遊戲，不斷重複，policy 會隨着這個過程調整變得愈來愈好。算法符合這個思想的有一個算法叫作： cross

>>阅读原文<<