加強學習 | 多臂賭博機模型

時間 2020-01-13

標籤加強學習模型简体版

原文原文鏈接

探索的終點是真理web 上文介紹了了加強學習的基本框架，一個完整的加強學習框架包括狀態、動做、回報、環境等基本概念，其對應的任務問題有三個主要特色： 1. 不一樣的動做會有不一樣的回報； 2. 回報是隨時間延遲累積的； 3. 行動回報與環境狀態是相關的。算法對於一些簡單的加強學習任務，每每並不須要知足特色2和特色3，將這類問題稱爲多臂賭博機模型。它來源於賭場的多臂賭博機，即按下不一樣的臂會有不一

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。