AlphaZero完勝三大世界冠軍棋類程序:5000個TPU、自學一天

本文來自AI新媒體量子位(QbitAI) 昨天,DeepMind團隊又在arXiv上扔了個重磅炸彈,新一代AlphaZero在用了強勁的計算資源(5000個一代TPU和64個二代TPU)之後,用不到24小時的時間自我對弈(tabula rasa,也叫白板)強化學習,接連擊敗了三個世界冠軍級的程序 (國際象棋、將棋、圍棋)。 △ AlphaZero和國際象棋冠軍程序對弈 其中包括上一代冠軍圍棋程序A
相關文章
相關標籤/搜索