強化學習系列(二):Multi-armed Bandits(多臂老虎機問題)

1、前言 強化學習系列(一):強化學習簡介中咱們介紹了強化學習的基本思想,和工做過程,咱們提到了強化學習的一大矛盾:平衡Exploration and Exploitation。本章咱們以Multi-armed Bandits(多臂老虎機問題)爲例子,簡單介紹一下針對該問題的Exploration and Exploitation平衡方法。web 2、問題描述 想一想一下你能夠重複一個選擇過程,每
相關文章
相關標籤/搜索