如何爲NLP模型出一份合格的「考卷」?

導語 | 在進行 NLP 模型評測時,我們通常會使用一些準確性指標去評價模型,例如 F1, MAP, ACC 等。雖然這些指標可以較爲公正的評判模型的總體能力,但在對模型進行監控和優化時,有時需要知道更多的細化指標。本文以語義相似度模型爲例,淺談 NLP 可解釋評測,希望與大家一同交流。文章作者:許元博、周磊,騰訊CSIG質量部評測研究員。 一、背景 如果一項 NLP 任務是考試,NLP 模型是考
相關文章
相關標籤/搜索