強化學習

強化學習 2018/6/2 1.引言 強化學習的目標是要通過獎賞與懲罰來對當前的問題得到一個最好的解決策略,對好的策略進行獎賞,對壞的策略進行懲罰,不斷的強化這個過程,最終得到一個最好的策略。 2.K-搖臂賭博機 「K-搖臂賭博機」是單步強化學習任務的一個理想模型,如下圖所示 該機器共有k各搖臂(圖中爲5個),每次只能選擇搖其中一個,每個搖臂會以各自一定的概率分佈掉金幣,我們需要做的是,在有限的搖
相關文章
相關標籤/搜索