人工智能基準(Benchmarking)再思考


來源:專知html

本文多圖,建議閱讀5分鐘測試

本文介紹咱們在人工智能(特別是在天然語言處理)中進行基準測試的方式時所作的工做。人工智能

當前人工智能中的基準測試範式存在許多問題:基準很快飽和,容易過分擬合,包含可利用的註釋器工件,評估指標不清晰或不完善,而且不能衡量咱們真正關心的東西。我將談談我在嘗試從新思考咱們在人工智能(特別是在天然語言處理)中進行基準測試的方式時所作的工做,包括對抗性的NLI和模因數據集,以及最近推出的Dynabench平臺。htm

https://nlp.stanford.edu/seminar/details/douwekiela.shtmlclass

相關文章
相關標籤/搜索