深度剖析 AlphaGo 的訓練策略

  AlphaGo的訓練中,主要涉及三個核心網絡、四個重要部分 三個核心網絡: 1、有監督的CNN:學習大量高手棋譜,實現‘快速成長’ 2、估值網絡VL:實戰中,value-learn會對系統的下一步落子的策略,做評估 3、強化學習網絡 RL:計算機不斷‘自我對弈’,並在整盤棋下完後,對勝敗結果做反饋,從而對整盤棋落子的合理性打分,協助系統落子。 四個重要部分: 1、走棋網絡:給定搶錢局面,採樣當
相關文章
相關標籤/搜索