強化學習導論筆記——第二章 多臂老虎機問題

第二章 老虎機問題 多臂老虎機問題 單臂老虎機在拉下游戲臂後,有一定的概率獲得獎勵。而多臂老虎機需要選擇到底拉哪個遊戲臂,每個臂的中獎概率是不一樣的。 多臂老虎機正好適合用來討論探索與利用的平衡問題。如果每次都採取貪婪算法,選擇獎勵概率的遊戲臂,則完全是在利用行爲的價值;如果選擇的是非已知最佳的遊戲臂,那就是在探索。一般來講,利用可以使得單次回報最大,而探索則從長期來看可能產生更好的長期回報。 本
相關文章
相關標籤/搜索