Mastering the game of Go without human knowledge譯文

時間 2020-12-21

原文原文鏈接

1. 摘要人工智能的長期目標是後天自主學習，並且在一些具有挑戰性的領域中實現超人的算法。最近，AlphaGo成爲第一個在圍棋中擊敗人類世界冠軍的程序。AlphaGo的樹搜索使用深度神經網絡來評估棋局和選定下棋位置。神經網絡是利用對人類專業棋手的移動進行監督學習，同時通過自我博弈進行強化學習來進行訓練的。在這裏，我們引入了一種沒有人類的數據、指導或超越遊戲規則的領域知識的、基於強化學習的算法。Al