Petuum提出序列生成學習算法通用框架

近日,來自人工智能創業公司 Petuum 的研究人員發表論文,提出序列生成學習算法的通用框架——廣義的熵正則化策略優化框架(Generalized Entropy-Regularized Policy Optimization)。該框架是對包括最大似然學習 (MLE)、增強學習 (RL) 等多種廣泛使用的算法的泛化。研究人員進而提出一種新的序列生成算法,該算法在已有算法中進行動態插值,在機器翻譯和
相關文章
相關標籤/搜索