2 K 搖臂賭博機(探索與利用 貪心法 softmax)(周志華)

文章目錄 探索與利用 僅探索 僅利用 ϵ貪心法 softmax 探索與利用 單步強化學習任務對應理論模型—K-搖臂賭博機:k個搖臂,賭徒在投入一個硬幣後選擇按下其中一個搖臂,每一個搖臂以必定的機率(未知)吐出硬幣,經過必定策略最大化web 最大化單步獎賞,即僅考慮一步操做。 欲最大化單步獎賞考慮兩個方面:一是須要知道每一個動做帶來的獎賞;二要執行獎賞最大的動做。(一般一個動做的獎賞值是來自於一個幾
相關文章
相關標籤/搜索