不只是圍棋!AlphaGo Zero之後DeepMind推出泛化強化學習算法AlphaZero

在 DeepMind 發表 Nature 論文介紹 AlphaGo Zero 之後,這家公司一直在尋求將這種強大算法泛化到其他任務中的可能性。昨天,AlphaGo 研究團隊提出了 AlphaZero:一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法。據稱,新的算法經過不到 24 小時的訓練後,可以在國際象棋和日本將棋上擊敗目前業內頂尖的計算機程序(這些程序早已超越人類世界
相關文章
相關標籤/搜索