R4C: A Benchmark for Evaluating RC Systems to Get the Right Answer for the Right Reason

Motivation 文章的目的是希望評估一個RC系統的內部推理,即用一種更細粒度方式體現模型確實在推理。(相比較一些datasets通過預測supporting facts來體現模型推理能力) 對於之前的一些datasets,比如經常以who開頭的提問,模型學習之後往往會從一些人名中選擇答案。這種啓發式的規則容易帶來一些bias,而模型是否真正理解了原文,我們無從得知。 另一個問題,作者提到結合
相關文章
相關標籤/搜索