從Multi-arm Bandits問題分析 - RL進階

時間 2019-12-11

標籤 multi arm bandits 問題分析進階简体版

原文原文鏈接

【上一篇強化學習（Reinforcement Learning, RL）初步介紹】【下一篇有限馬爾可夫決策過程（Finite Markov Decision Processes）】算法　　RL與其餘學習方法最大的區別在於它使用的訓練信息是對actions的評價，而其餘方法是給出正常的actions。這一次的教程就是經過一個具體的案例來對RL問題中的「evaluative aspect」進

>>阅读原文<<