ReasoNet: Learning to Stop Reading in Machine Comprehension讀書筆記

時間 2021-01-02

原文原文鏈接

multi-hop reasoning閱讀理解，通過強化學習決定hop步數。訓練技巧：一般的baseline方法採用的是全局baseline，但是不同輸入的hop步數不同，採用全局baseline沒有區分。本文采用Constrastive Reward，對每個輸入單獨計算baseline，提高訓練速度。

>>阅读原文<<