【/強化學習7日打卡營-世界冠軍帶你從零實踐/課程摘要和調參心得-No.2】基於表格型方法求解RL

時間 2021-01-10

標籤深度學習強化學習神經網絡简体版

原文原文鏈接

一、課程內容 2.基於表格型方法求解RL 2.1 MDP、Q表格強化學習的基本思路來源於馬爾科夫決策過程Markov Decision Process（MDP）：在設計強化學習方法中，model-free和model-based的區別主要在於是否對policy和reward有預先建模：根據不同場景，reward函數可能會有所不同：比如救護車場景，是有盡頭的，每闖一個紅燈，時間上收益差不多，

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。