從Multi-arm Bandits問題分析 - RL進階

【上一篇 強化學習(Reinforcement Learning, RL)初步介紹 】 【下一篇 有限馬爾可夫決策過程(Finite Markov Decision Processes)】   RL與其他學習方法最大的區別在於它使用的訓練信息是對actions的評價,而其他方法是給出正常的actions。這一次的教程就是通過一個具體的案例來對RL問題中的「evaluative aspect」進行介
相關文章
相關標籤/搜索