強化學習基礎 | (19) AlphaGo Zero強化學習原理

時間 2021-01-13

標籤強化學習基礎简体版

原文原文鏈接

原文地址在基於模擬的搜索與蒙特卡羅樹搜索(MCTS)中，我們討論了MCTS的原理和在棋類中的基本應用。這裏我們在前一節MCTS的基礎上，討論下DeepMind的AlphaGo Zero強化學習原理。本篇主要參考了AlphaGo Zero的論文, AlphaGo Zero綜述和AlphaGo Zero Cheat Sheet。 1. AlphaGo Zero模型基礎 AlphaGo Zero不需

>>阅读原文<<