AI學習筆記之——多臂老虎機(Multi-armed bandit)問題

上一篇文章簡要介紹了一下強化學習,強化學習是一個非常龐大的體系,與監督學習和非監督學習相比,其廣度和深度都大的多,涉及到很多經典的決策算法,對統計學知識有很高的依賴。作爲強化學習的基礎,這篇文章研究一下這個領域的一個經典決策問題——多臂老虎機問題。 1.探索-利用困境(Explore-Exploit dilemma) 多臂老虎機是一個有多個拉桿的賭博機,每一個拉桿的中獎機率是不一樣的,問題是:如何
相關文章
相關標籤/搜索