人工智能基準(Benchmarking)再思考

時間 2021-01-12

標籤 html 測試人工智能 htm class 數據 img 註釋語言欄目興趣愛好简体版

原文原文鏈接

來源：專知html

本文多圖，建議閱讀5分鐘測試

本文介紹咱們在人工智能(特別是在天然語言處理)中進行基準測試的方式時所作的工做。人工智能

當前人工智能中的基準測試範式存在許多問題:基準很快飽和，容易過分擬合，包含可利用的註釋器工件，評估指標不清晰或不完善，而且不能衡量咱們真正關心的東西。我將談談我在嘗試從新思考咱們在人工智能(特別是在天然語言處理)中進行基準測試的方式時所作的工做，包括對抗性的NLI和模因數據集，以及最近推出的Dynabench平臺。htm

https://nlp.stanford.edu/seminar/details/douwekiela.shtmlclass