AlphaGo Zero是如何工作的？——AlphaGo Zero背後的強化學習算法原理

時間 2021-01-09

原文原文鏈接

Deepmind公司的AlphaGo算法是第一個打敗人類選手的圍棋程序。2016年三月，打敗李世石的是AlphaGo Lee，一個靠大量人類圍棋專家的棋譜進行監督學習和自對弈強化學習進行訓練的AI程序。不久之後，deepmind的新論文展示了不同於之前AlphaGo的全新網絡結構——它僅僅用了三天的自對弈強化學習而無需人類的下棋經驗就以100-0的戰績打敗了AlphaGo。它就是大名鼎鼎的Al

>>阅读原文<<