Bourne強化學習筆記3:在簡單的Bandit問題中抓住強化學習的本質

強化學習最重要的特點是利用訓練信息來評估動作,而不是指出最優動作。這就要求需要探索(explore)多個動作來評估、比較出最優動作。即前者只反饋動作的好壞程度,但沒有直接指出哪個動作是最好或最壞的;而後者可以指導處哪個動作是最好的,並且該指導反饋與已經發生的動作無關。這也是非監督學習(評價性反饋)與監督學習(指導性反饋)的區別。評價性反饋完全依賴於所選擇的動作(即所產生的樣本),而指導性反饋則與所
相關文章
相關標籤/搜索