強化學習及其在NLP上的應用

時間 2020-12-31

原文原文鏈接

what is RL? RL輸入是一個序列，很大程度上兩次輸入的相關聯 Different kinds of RL 線性或非線性擬合會有幾個問題：1、默認數據獨立同分布，但是輸入數據間有關聯 2、target不穩定，label 好壞程度或正確程度不穩定 DQN對其進行三方面改進：1、深度卷積神經網絡擬合能力比較強 2、通過之前的樣本或者別人的樣本進行訓練，主要是打亂樣本之間的相關性狀態－－》策

>>阅读原文<<