Playing atari with deep reinforcement learning

時間 2020-12-24

標籤 DRL 简体版

原文原文鏈接

Introduction 傳統RL手動提取選擇特徵，DL(CNN)可以根據raw sensory的數據抽象出一些high-level特徵，DRL的困難： DL訓練使用大量的labeled數據，而RL數據量小，且reward和action之間的delay DL樣本間獨立，RL樣本間相關 RL樣本的分佈隨着學習改變，DL中設定的固定的分佈本文針對2，3困難的方法： experience replay

>>阅读原文<<