ReasoNet: Learning to Stop Reading in Machine Comprehension讀書筆記

multi-hop reasoning閱讀理解,通過強化學習決定hop步數。 訓練技巧:     一般的baseline方法採用的是全局baseline,但是不同輸入的hop步數不同,採用全局baseline沒有區分。本文采用Constrastive Reward,對每個輸入單獨計算baseline,提高訓練速度。
相關文章
相關標籤/搜索