科研論文知識研討分享

(Su et al., EMNLP 2018)Discriminative Deep Dyna-Q:Robust Planning for Dialogue Policy Learning 目的 區分判斷出這兩者:世界模型生成的模擬經驗,用戶生成的真實經驗。 前人存在的問題 因爲 DDQ 在planning learning訓練過程的後期質量不高的模擬經驗反而會損傷agent,所以DDQ解決辦法是
相關文章
相關標籤/搜索