Suphx算法以及Q&A摘要

注:微軟研究院的Suphx團隊已經對論文進行了詳細的解讀,這裏只是我自己讀原論文算法部分的記錄,以及對Suphx團隊在4月9日的直播中的Q&A部分的摘要。 Suphx(Super Phoenix)是一個主攻4人日本麻將的AI,主要基於深度強化學習進行訓練,除此之外還應用了全局獎勵預測(global reward predictction)、先知教練(oracle guiding)以及運行時策略適應
相關文章
相關標籤/搜索