AI學習筆記之——多臂老虎機(Multi-armed bandit)問題

時間 2021-01-13

原文原文鏈接

上一篇文章簡要介紹了一下強化學習，強化學習是一個非常龐大的體系，與監督學習和非監督學習相比，其廣度和深度都大的多，涉及到很多經典的決策算法，對統計學知識有很高的依賴。作爲強化學習的基礎，這篇文章研究一下這個領域的一個經典決策問題——多臂老虎機問題。 1.探索-利用困境(Explore-Exploit dilemma) 多臂老虎機是一個有多個拉桿的賭博機，每一個拉桿的中獎機率是不一樣的，問題是：如何