對話系統日更（1）-DPL綜述

時間 2021-01-13

原文原文鏈接

DPL綜述：參考：https://zhuanlan.zhihu.com/p/52692962 dialogue act對應於DPL，表明在限制條件（之前的累積目標、對話歷史等）下系統要執行的動作（接下來的策略），這個動作可能不是追求當前收益最大化，而是未來收益最大化。 state：狀態St是一種包含 0時刻到t時刻的對話歷史、用戶目標意圖和槽值對的數據結構它的輸入是Un（n時刻的意圖和槽值

>>阅读原文<<