加強學習 | Q-Learning

時間 2020-01-13

標籤加強學習 learning 简体版

原文原文鏈接

「價值不是由一次成功決定的，而是在長期的進取中體現」web 上文【加強學習 | 多臂賭博機模型進階】介紹了描述能力更強的多臂賭博機模型，即經過多臺機器的方式對環境變量建模，選擇動做策略時考慮時序累積獎賞的影響。雖然多臂賭博機模型中引入了價值的概念，但方法在建模過程當中本質上是以策略爲優化目標，所以又常被歸爲基於策略的加強學習方法。網絡此外，加強學習方法還有基於價值以及基於模型兩類主要方法。本文介

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。