強化學習基礎 | (19) AlphaGo Zero強化學習原理

原文地址 在基於模擬的搜索與蒙特卡羅樹搜索(MCTS)中,我們討論了MCTS的原理和在棋類中的基本應用。這裏我們在前一節MCTS的基礎上,討論下DeepMind的AlphaGo Zero強化學習原理。 本篇主要參考了AlphaGo Zero的論文, AlphaGo Zero綜述和AlphaGo Zero Cheat Sheet。 1. AlphaGo Zero模型基礎 AlphaGo Zero不需
相關文章
相關標籤/搜索