強化學習(RLAI)讀書筆記第二章多臂老虎機

第二章:多臂老虎機 把強化學習和其它類型的機器學習區分出來的一大特徵就是,強化學習利用的是評估動做的訓練數據而非指導哪一個動做是正確的數據。純評估反饋是指只評價動做的好壞程度而不是評價動做是否是最好的。純指導反饋是直接給出哪一個動做是最優的。指導反饋是監督學習的基礎。算法 這一章學習評估反饋的簡單形式,一個無關聯設定的問題。學習這個例子能夠清楚看到評估反饋和指導反饋的區別,而且怎麼組合起來他們。這
相關文章
相關標籤/搜索