AlphaGo Zero與增強學習

2017年10月19日凌晨,DeepMind 在《自然》雜誌上發表了一篇論文,正式推出人工智能圍棋程序的最新版本——AlphaGo Zero. AlphaGo Zero成長史  最初AlphaGo Zero除了圍棋的基本規則以外,沒有任何關於圍棋的知識;  3個小時之後,它通過自學入門圍棋,成爲人類初學者水平;  19個小時之後,它自已總結出了一些"套路",比如死活,打劫,先佔邊角等等;  自學第
相關文章
相關標籤/搜索