從Multi-arm Bandits問題分析 - RL進階

【上一篇 強化學習(Reinforcement Learning, RL)初步介紹 】 【下一篇 有限馬爾可夫決策過程(Finite Markov Decision Processes)】算法   RL與其餘學習方法最大的區別在於它使用的訓練信息是對actions的評價,而其餘方法是給出正常的actions。這一次的教程就是經過一個具體的案例來對RL問題中的「evaluative aspect」進
相關文章
相關標籤/搜索