通用AlphaGo誕生？DeepMind的MuZero在多種棋類遊戲中超越人類

時間 2021-01-02

原文原文鏈接

DeepMind近期的一項研究提出了MuZero算法，該算法在不具備任何底層動態知識的情況下，通過結合基於樹的搜索和學得模型，在雅達利2600遊戲中達到了SOTA表現，在國際象棋、日本將棋和圍棋的精確規劃任務中可以匹敵AlphaZero，甚至超過了提前得知規則的圍棋版AlphaZero。 MuZero 算法在國際象棋、日本將棋、圍棋和雅達利（Atari）遊戲訓練中的評估結果。橫座標表示訓練步驟數量

>>阅读原文<<