ACL2016最佳論文:用於口語對話系統策略優化的在線自動獎勵學習

用於口語對話系統策略優化的在線自動獎勵學習 聯合編譯:陳圳,章敏,高斐 摘要 計算正確獎勵函數的能力對於通過加強學習優化對話系統十分的關鍵。在現實世界的應用中,使用明確的用戶反饋作爲獎勵信號往往是不可靠的,並且收集反饋花費也十分地高。但這一問題可以有所減輕,如果能提前知道用戶的意圖或是數據能預先訓練任務離線的任務成功預測器。在實踐中這兩種都不太適合現實中的大多數應用。在這裏我們提出了一個在線學習框
相關文章
相關標籤/搜索