DeepMind強化學習綜述:快速和緩慢的強化學習

背景算法 近年來,深度強化學習(RL)方法在人工智能方面取得了使人矚目的進步,在從Atari到Go到無限制撲克等領域都超過了人類的表現。微信 這一進展引發了對了解人類學習感興趣的認知科學家的關注。可是,人們一直擔憂,深層RL可能過低樣本效率-也就是說,它可能太慢-沒法爲人類學習提供一個合理的模型。網絡 在本綜述中,做者經過描述最近開發的技術來反駁這種批評,這些技術使深層RL可以更靈活地運行,比之前
相關文章
相關標籤/搜索