多臂老虎機導論(一)引言

  本系列主要是上述這本Introduction to Multi-Armed Bandits的讀書筆記。   多臂老虎機是一個簡單但非常強大的算法框架,主要是在一段時間內不確定情況下做出決策。主要描述的是,一個算法有K個可能的動作可供選擇,也就是臂,還有T輪。在每一輪中,算法選擇一個臂,併爲這個臂收集一個獎勵。獎勵是獨立於某個固定的分佈(即,只取決於所選的臂),但算法不知道這個分佈。算法最核心的
相關文章
相關標籤/搜索