RL：強化學習在任務式對話領域的優勢

時間 2021-01-18

標籤 NLP 简体版

原文原文鏈接

一、強化學習與監督學習的區別強化學習是通過與環境交互獲取reward來更新agent網絡參數的。監督學習是通過已有的標籤數據來更新agent網絡參數的。強化學習並不需要正確的「輸入/輸出對」數據，強化學習‘強’就是因爲其訓練過程不需要準備大量的帶標籤的訓練樣本，它重視的是環境給予的反饋，訓練是一個交互學習的過程。監督需要大量正確的「輸入/輸出對」數據，它重視的是teacher作出的評判，訓

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。