深度剖析 AlphaGo 的訓練策略

時間 2021-01-12

原文原文鏈接

AlphaGo的訓練中，主要涉及三個核心網絡、四個重要部分三個核心網絡： 1、有監督的CNN：學習大量高手棋譜，實現‘快速成長’ 2、估值網絡VL：實戰中，value-learn會對系統的下一步落子的策略，做評估 3、強化學習網絡 RL：計算機不斷‘自我對弈’，並在整盤棋下完後，對勝敗結果做反饋，從而對整盤棋落子的合理性打分，協助系統落子。四個重要部分： 1、走棋網絡：給定搶錢局面，採樣當

>>阅读原文<<