強化學習（RLAI）讀書筆記第二章多臂老虎機

時間 2021-01-03

原文原文鏈接

第二章：多臂老虎機把強化學習和其它類型的機器學習區分出來的一大特徵就是，強化學習利用的是評估動作的訓練數據而非指導哪個動作是正確的數據。純評估反饋是指只評價動作的好壞程度而不是評價動作是不是最好的。純指導反饋是直接給出哪個動作是最優的。指導反饋是監督學習的基礎。這一章學習評估反饋的簡單形式，一個無關聯設定的問題。學習這個例子可以清楚看到評估反饋和指導反饋的區別，並且怎麼組合起來他們。這個例子就

>>阅读原文<<