強化學習導論筆記——第二章多臂老虎機問題

時間 2021-01-15

原文原文鏈接

第二章老虎機問題多臂老虎機問題單臂老虎機在拉下游戲臂後，有一定的概率獲得獎勵。而多臂老虎機需要選擇到底拉哪個遊戲臂，每個臂的中獎概率是不一樣的。多臂老虎機正好適合用來討論探索與利用的平衡問題。如果每次都採取貪婪算法，選擇獎勵概率的遊戲臂，則完全是在利用行爲的價值；如果選擇的是非已知最佳的遊戲臂，那就是在探索。一般來講，利用可以使得單次回報最大，而探索則從長期來看可能產生更好的長期回報。本

>>阅读原文<<