Mastering the game of Go without human knowledge譯文

1. 摘要 人工智能的長期目標是後天自主學習,並且在一些具有挑戰性的領域中實現超人的算法。最近,AlphaGo成爲第一個在圍棋中擊敗人類世界冠軍的程序。AlphaGo的樹搜索使用深度神經網絡來評估棋局和選定下棋位置。神經網絡是利用對人類專業棋手的移動進行監督學習,同時通過自我博弈進行強化學習來進行訓練的。在這裏,我們引入了一種沒有人類的數據、指導或超越遊戲規則的領域知識的、基於強化學習的算法。Al
相關文章
相關標籤/搜索