有錢可以多任性?OpenAI提出人肉模型訓練,文本摘要全面超越人類表現!

文 | 小軼 背景 三個多月前,OpenAI的GPT-3在NLP界掀起軒然大波。就在上週,視金錢如糞土的OpenAI團隊又在文本摘要方面推出了最新力作,全方位超越人類表現。其亮點在於:以人類偏好替代自動化評測方法(如ROUGE、BLUE)爲訓練目標,用人類反饋作爲獎勵進行強化學習,性能表現十分驚豔。 對於較爲複雜的NLP任務,如何進行評測、如何構造精準的損失函數已困擾了NLP researcher
相關文章
相關標籤/搜索