科研論文知識研討分享

時間 2021-01-16

標籤機器學習理論简体版

原文原文鏈接

(Su et al., EMNLP 2018)Discriminative Deep Dyna-Q：Robust Planning for Dialogue Policy Learning 目的區分判斷出這兩者：世界模型生成的模擬經驗，用戶生成的真實經驗。前人存在的問題因爲 DDQ 在planning learning訓練過程的後期質量不高的模擬經驗反而會損傷agent，所以DDQ解決辦法是

>>阅读原文<<