強化學習系列(二):Multi-armed Bandits(多臂老虎機問題)

一、前言 強化學習系列(一):強化學習簡介中我們介紹了強化學習的基本思想,和工作過程,我們提到了強化學習的一大矛盾:平衡Exploration and Exploitation。本章我們以Multi-armed Bandits(多臂老虎機問題)爲例子,簡單介紹一下針對該問題的Exploration and Exploitation平衡方法。 二、問題描述 想想一下你可以重複一個選擇過程,每次有k個
相關文章
相關標籤/搜索