強化學習導論 第二章

作者:劍聖 鏈接:https://zhuanlan.zhihu.com/p/27323995 來源:知乎 著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。   區分強化學習和其他種類的學習方式最顯著的特點是:在強化學習中,訓練信息被用於評估動作的好壞,而不是用於指導到底該是什麼動作。這也是爲何需要主動去做exploration的原因。純粹的評估性反饋可以表明一個動作的好壞、但並
相關文章
相關標籤/搜索