加強學習 | Q-Learning

「價值不是由一次成功決定的,而是在長期的進取中體現」web 上文【加強學習 | 多臂賭博機模型進階】介紹了描述能力更強的多臂賭博機模型,即經過多臺機器的方式對環境變量建模,選擇動做策略時考慮時序累積獎賞的影響。雖然多臂賭博機模型中引入了價值的概念,但方法在建模過程當中本質上是以策略爲優化目標,所以又常被歸爲基於策略的加強學習方法。網絡 此外,加強學習方法還有基於價值以及基於模型兩類主要方法。本文介
相關文章
相關標籤/搜索