【/強化學習7日打卡營-世界冠軍帶你從零實踐/課程摘要和調參心得-No.2】基於表格型方法求解RL

一、課程內容 2.基於表格型方法求解RL 2.1 MDP、Q表格 強化學習的基本思路來源於馬爾科夫決策過程Markov Decision Process(MDP): 在設計強化學習方法中,model-free和model-based的區別主要在於是否對policy和reward有預先建模: 根據不同場景,reward函數可能會有所不同: 比如救護車場景,是有盡頭的,每闖一個紅燈,時間上收益差不多,
相關文章
相關標籤/搜索