RL:強化學習在任務式對話領域的優勢

一、強化學習與監督學習的區別 強化學習是通過與環境交互獲取reward來更新agent網絡參數的。 監督學習是通過已有的標籤數據來更新agent網絡參數的。 強化學習並不需要正確的「輸入/輸出對」數據,強化學習‘強’就是因爲其訓練過程不需要準備大量的帶標籤的訓練樣本,它重視的是環境給予的反饋,訓練是一個交互學習的過程。 監督需要大量正確的「輸入/輸出對」數據,它重視的是teacher作出的評判,訓
相關文章
相關標籤/搜索