28天自制你的AlphaGo（三）：對策略網絡的深入分析以及它的弱點所在

時間 2021-01-16

原文原文鏈接

一、神經網絡在圍棋中的歷史再次回顧 AlphaGo v13 的三大組件： MCTS（蒙特卡洛樹搜索） CNN （卷積神經網絡，包括：策略網絡 policy network、快速走子網絡 playout network、價值網絡 value network） RL （強化學習）在上世紀90年代初期，大家就已經開始實驗將神經網絡（當時是淺層的）與強化學習應用於棋類遊戲。最著名的例子是西洋雙陸棋 B

>>阅读原文<<