近20年3867篇AI論文大調研:有缺陷的指標被濫用,好的指標被忽視

來源:AI科技評論 本文約5400字,建議閱讀6分鐘。 論文調查告訴你評估機器學習模型中的不足。 「用於評估AI和機器學習模型的常用指標不足以反映這些模型的真實性能」,來自維也納醫科大學人工智能與決策支持研究所的研究人員通過調查3,867篇AI論文,得出了這個結論。 基準測試是AI研究進展的重要推動力。任務和與之相關的度量可以被視爲科學界旨在解決的問題的抽象。基準數據集被概念化爲模型要解決的固定代
相關文章
相關標籤/搜索