R4C: A Benchmark for Evaluating RC Systems to Get the Right Answer for the Right Reason

時間 2020-12-30

原文原文鏈接

Motivation 文章的目的是希望評估一個RC系統的內部推理，即用一種更細粒度方式體現模型確實在推理。（相比較一些datasets通過預測supporting facts來體現模型推理能力）對於之前的一些datasets，比如經常以who開頭的提問，模型學習之後往往會從一些人名中選擇答案。這種啓發式的規則容易帶來一些bias，而模型是否真正理解了原文，我們無從得知。另一個問題，作者提到結合