加強學習 | 多臂賭博機模型

探索的終點是真理web 上文介紹了了加強學習的基本框架,一個完整的加強學習框架包括狀態、動做、回報、環境等基本概念,其對應的任務問題有三個主要特色: 1. 不一樣的動做會有不一樣的回報; 2. 回報是隨時間延遲累積的; 3. 行動回報與環境狀態是相關的。算法 對於一些簡單的加強學習任務,每每並不須要知足特色2和特色3,將這類問題稱爲多臂賭博機模型。它來源於賭場的多臂賭博機,即按下不一樣的臂會有不一
相關文章
相關標籤/搜索