Petuum提出序列生成學習算法通用框架

時間 2020-12-24

原文原文鏈接

近日，來自人工智能創業公司 Petuum 的研究人員發表論文，提出序列生成學習算法的通用框架——廣義的熵正則化策略優化框架（Generalized Entropy-Regularized Policy Optimization）。該框架是對包括最大似然學習 (MLE)、增強學習 (RL) 等多種廣泛使用的算法的泛化。研究人員進而提出一種新的序列生成算法，該算法在已有算法中進行動態插值，在機器翻譯和

>>阅读原文<<