基於policy的強化學習

時間 2020-12-30

標籤神經網絡機器學習深度學習简体版

原文原文鏈接

基於policy的強化學習一、actor的作用和設計和以往的機器學習手段類似，強化學習的目的是爲了學習一個「function」，這個「function」描述了agent對環境的觀測（observation）和他採取的action之間的關係。即：action=f(observation)，具體尋找這個「function」的步驟主要分爲三部： 1.定義這個抽象的actor 比如我們可以使用神經

>>阅读原文<<