Reinforcement Learning - An Introduction強化學習讀書筆記 Ch3.4-Ch3.8

3.4 分幕式和持續性任務的統一表示法 強化學習可以分成分幕式任務(交互可以被分解成單獨的幕序列),和持續性任務。 分幕式任務在數學上更容易表示,因爲在每一幕中,每個動作隻影響到之後收到的有限個的收益。 爲了簡化表示,在分幕式任務中不區分幕,且用統一的表示方法來表示分幕式和持續性兩種學習方法的收益函數: 在分幕式任務中收益定義爲有限項的總和,在持續性任務中收益定義爲無限項的總和,而在分幕式任務中,
相關文章
相關標籤/搜索