Reinforcement learning——an introduction強化學習翻譯第二章

Chapter 2 Multi-armed Bandits ​ 強化學習與其他類型學習的區別最重要的特徵是它使用訓練信息來評估所採取的行動,而不是通過給出正確的行動來指導。這就是爲什麼需要積極探索,明確地尋找良好的行爲。純粹的評價性反饋表明所採取的行動有多好,但不是可能的最好還是最壞的行動。另一方面,純粹的指導性反饋表明要採取的正確行動,而不是實際採取的行動。這種反饋是監督學習的基礎,監督學習包括
相關文章
相關標籤/搜索