強化學習系列（二）：Multi-armed Bandits(多臂老虎機問題）

時間 2021-01-13

原文原文鏈接

一、前言強化學習系列（一）：強化學習簡介中我們介紹了強化學習的基本思想，和工作過程，我們提到了強化學習的一大矛盾：平衡Exploration and Exploitation。本章我們以Multi-armed Bandits(多臂老虎機問題）爲例子，簡單介紹一下針對該問題的Exploration and Exploitation平衡方法。二、問題描述想想一下你可以重複一個選擇過程，每次有k個

>>阅读原文<<