28天自制你的AlphaGo(三):對策略網絡的深入分析以及它的弱點所在

一、神經網絡在圍棋中的歷史 再次回顧 AlphaGo v13 的三大組件: MCTS(蒙特卡洛樹搜索) CNN (卷積神經網絡,包括:策略網絡 policy network、快速走子網絡 playout network、價值網絡 value network) RL (強化學習) 在上世紀90年代初期,大家就已經開始實驗將神經網絡(當時是淺層的)與強化學習應用於棋類遊戲。最著名的例子是西洋雙陸棋 B
相關文章
相關標籤/搜索