Bourne強化學習筆記3：在簡單的Bandit問題中抓住強化學習的本質

時間 2020-12-31

原文原文鏈接

強化學習最重要的特點是利用訓練信息來評估動作，而不是指出最優動作。這就要求需要探索（explore）多個動作來評估、比較出最優動作。即前者只反饋動作的好壞程度，但沒有直接指出哪個動作是最好或最壞的；而後者可以指導處哪個動作是最好的，並且該指導反饋與已經發生的動作無關。這也是非監督學習（評價性反饋）與監督學習（指導性反饋）的區別。評價性反饋完全依賴於所選擇的動作（即所產生的樣本），而指導性反饋則與所

>>阅读原文<<