強化學習第7課:交叉熵方法的一些侷限性

上次介紹的交叉熵方法,交叉熵方法雖然很是有效,可是也有一些缺點。web 例如,若是你只嘗試100次的話,那麼可能會有一些稀少的狀況,在這100次中只出現那麼一兩次。這樣的話,會獲得一個很是奇怪的機率分佈,可能會一直重複某一個行動。也許你能夠經過增長實驗的次數來改進這個問題,好比說100次增長到10000次,可是若是騎自行車摔倒1萬次的話,那會很是疼。網絡 這時能夠用 smoothing機器學習 要
相關文章
相關標籤/搜索