bandit算法原理及Python實現

Bandit算法是在線學習的一種,一切經過數據收集而獲得的機率預估任務,都能經過Bandit系列算法來進行在線優化。這裏的「在線」,指的不是互聯網意義上的線上,而是隻算法模型參數根據觀察數據不斷演變。html 以多臂老虎機問題爲例,首先咱們假設每一個臂是否產生收益,其背後有一個機率分佈,產生收益的機率爲ppython 咱們不斷地試驗,去估計出一個置信度較高的機率p的機率分佈就能近似解決這個問題了。
相關文章
相關標籤/搜索