AlphaGo Zero與增強學習

時間 2021-01-11

標籤 alphago zero 增強學習简体版

原文原文鏈接

2017年10月19日凌晨，DeepMind 在《自然》雜誌上發表了一篇論文，正式推出人工智能圍棋程序的最新版本——AlphaGo Zero． AlphaGo Zero成長史最初AlphaGo Zero除了圍棋的基本規則以外，沒有任何關於圍棋的知識； 3個小時之後，它通過自學入門圍棋，成爲人類初學者水平； 19個小時之後，它自已總結出了一些＂套路＂，比如死活，打劫，先佔邊角等等；自學第

>>阅读原文<<