強化學習及其在NLP上的應用

what is RL? RL輸入是一個序列,很大程度上兩次輸入的相關聯 Different kinds of RL 線性或非線性擬合會有幾個問題:1、默認數據獨立同分布,但是輸入數據間有關聯 2、target不穩定,label 好壞程度或正確程度不穩定 DQN對其進行三方面改進:1、深度卷積神經網絡擬合能力比較強  2、通過之前的樣本或者別人的樣本進行訓練,主要是打亂樣本之間的相關性 狀態--》策
相關文章
相關標籤/搜索