加強學習 | 多臂賭博機模型進階

時間 2020-01-13

標籤加強學習模型進階简体版

原文原文鏈接

「模型是一個框架，用來描述分析者感興趣的研究對象」web 上文【加強學習 | 多臂賭博機模型】介紹了基本的多臂賭博機模型，即單步動做會根據反饋直接做出決策，所以多臂賭博機的目標是學習策略函數，以產生最優的執行動做。介紹了兩種學習最優策略的方法，一是使用平均累積函數，二是使用神經網絡擬合。相比下，神經網絡具備更強的表達能力，效果也更好。緩存但基本的多臂賭博機模型有兩個限制，一是行動與環境狀態無關；

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。