Beyond Accuracy:Behavioral Testing of NLP Models with Checklist 論文閱讀

本文主要介紹以及翻譯一篇ACL2020 Best Paper Beyond Accuracy:Behavioral Testing of NLP Models with Checklist Abstract 儘管傳統評估模型好壞的方法是在測試集上觀察accuracy指標,然而這個指標常常高估了NLP模型的真實表現,而另外一些評估模型的方法要麼關注單個任務,要麼關注一些特殊的行爲。受軟件測試的啓發,
相關文章
相關標籤/搜索