A Distributional Perspective on Reinforcement Learning

時間 2021-01-02

原文原文鏈接

傳統的強化學習算法例如Q-learning算法學習的是state-action值函數，而這篇文章的核心是學習state-action的概率分佈。具體各簡單的例子：例如我們在上班是需要經過6站地鐵，每站地鐵平均需要5分鐘，則上上班需要30分鐘。如果每個星期（5天），地鐵都會出毛病，則就需要耽誤耽擱一個小時。正常情況下上班的時間期望，也就是均值是30分鐘，在火車出現故障的情況下，則每天的上班時間期望

>>阅读原文<<