從Multi-arm Bandits問題分析 - RL進階

時間 2021-01-13

原文原文鏈接

【上一篇強化學習（Reinforcement Learning, RL）初步介紹】【下一篇有限馬爾可夫決策過程（Finite Markov Decision Processes）】　　RL與其他學習方法最大的區別在於它使用的訓練信息是對actions的評價，而其他方法是給出正常的actions。這一次的教程就是通過一個具體的案例來對RL問題中的「evaluative aspect」進行介

>>阅读原文<<