加強學習 | 多臂賭博機模型進階

「模型是一個框架,用來描述分析者感興趣的研究對象」web 上文【加強學習 | 多臂賭博機模型】介紹了基本的多臂賭博機模型,即單步動做會根據反饋直接做出決策,所以多臂賭博機的目標是學習策略函數,以產生最優的執行動做。介紹了兩種學習最優策略的方法,一是使用平均累積函數,二是使用神經網絡擬合。相比下,神經網絡具備更強的表達能力,效果也更好。緩存 但基本的多臂賭博機模型有兩個限制,一是行動與環境狀態無關;
相關文章
相關標籤/搜索