AlphaGo Zero 強化學習算法原理深度分析

時間 2021-01-12

原文原文鏈接

AlphaGo Zero是Deepmind 最後一代AI圍棋算法，因爲已經達到了棋類遊戲AI的終極目的：給定任何遊戲規則，AI從零出發只通過自我對弈的方式提高，最終可以取得超越任何對手（包括頂級人類棋手和上一代AlphaGo）的能力。換種方式說，當給定足夠多的時間和計算資源，可以取得無限逼近遊戲真實解的能力。這一篇，我們深入分析AlphaGo Zero的設計理念和關鍵組件的細節並解釋組件之間的關聯

>>阅读原文<<