對話系統日更(1)-DPL綜述

DPL綜述: 參考:https://zhuanlan.zhihu.com/p/52692962 dialogue act對應於DPL,表明在限制條件(之前的累積目標、對話歷史等)下系統要執行的動作(接下來的策略),這個動作可能不是追求當前收益最大化,而是未來收益最大化。 state:狀態St是一種包含 0時刻到t時刻的對話歷史、 用戶目標 意圖和槽值對的數據結構 它的輸入是Un(n時刻的意圖和槽值
相關文章
相關標籤/搜索