谷歌大腦提出MAPO：用於程序合成的策略優化方法

時間 2021-01-20

原文原文鏈接

策略梯度方法正在獲得越來越多學者的關注。來自西北大學、谷歌大腦的研究人員近日提出了內存策略優化方法 MAPO，其通過弱監督的方式在泛化程序合成和問答任務中性能超過了此前幾種全監督的基準方法，該研究的論文已提交至 NIPS 2018 大會。項目代碼：https://github.com/crazydonkey200/neural-symbolic-machines 神經符號機（NSM）是一種利用強

>>阅读原文<<