DeepMind強化學習綜述:快速和緩慢的強化學習

時間 2020-01-25

原文原文鏈接

背景算法近年來，深度強化學習（RL）方法在人工智能方面取得了使人矚目的進步，在從Atari到Go到無限制撲克等領域都超過了人類的表現。微信這一進展引發了對了解人類學習感興趣的認知科學家的關注。可是，人們一直擔憂，深層RL可能過低樣本效率-也就是說，它可能太慢-沒法爲人類學習提供一個合理的模型。網絡在本綜述中，做者經過描述最近開發的技術來反駁這種批評，這些技術使深層RL可以更靈活地運行，比之前

>>阅读原文<<