A Distributional Perspective on Reinforcement Learning

傳統的強化學習算法例如Q-learning算法學習的是state-action值函數,而這篇文章的核心是學習state-action的概率分佈。 具體各簡單的例子:例如我們在上班是需要經過6站地鐵,每站地鐵平均需要5分鐘,則上上班需要30分鐘。如果每個星期(5天),地鐵都會出毛病,則就需要耽誤耽擱一個小時。正常情況下上班的時間期望,也就是均值是30分鐘,在火車出現故障的情況下,則每天的上班時間期望
相關文章
相關標籤/搜索