Playing atari with deep reinforcement learning

Introduction 傳統RL手動提取選擇特徵,DL(CNN)可以根據raw sensory的數據抽象出一些high-level特徵,DRL的困難: DL訓練使用大量的labeled數據,而RL數據量小,且reward和action之間的delay DL樣本間獨立,RL樣本間相關 RL樣本的分佈隨着學習改變,DL中設定的固定的分佈 本文針對2,3困難的方法: experience replay
相關文章
相關標籤/搜索