不只是圍棋！AlphaGo Zero之後DeepMind推出泛化強化學習算法AlphaZero

時間 2021-01-09

原文原文鏈接

在 DeepMind 發表 Nature 論文介紹 AlphaGo Zero 之後，這家公司一直在尋求將這種強大算法泛化到其他任務中的可能性。昨天，AlphaGo 研究團隊提出了 AlphaZero：一種可以從零開始，通過自我對弈強化學習在多種任務上達到超越人類水平的新算法。據稱，新的算法經過不到 24 小時的訓練後，可以在國際象棋和日本將棋上擊敗目前業內頂尖的計算機程序（這些程序早已超越人類世界

>>阅读原文<<