學界 | 當前機器學習成果然的可靠嗎?伯克利&MIT新研究質疑基準測試集

近日,伯克利和MIT研究者發佈的一篇名爲《Do CIFAR-10 Classifiers Generalize to CIFAR-10?》的新論文提出了學界一個尖銳的問題:包括CIFAR10在內的知名基準測試集,都存在驗證集過擬合問題。算法

這一論文引發了Keras之父François Chollet的關注與力挺,關於數據集的討論在推特上一發不可收拾,包括Gary Marcus和François都連發數條推特對此問題進行了討論。微信

在連續20幾個小時的連續發推中,François Chollet確定了這篇論文帶來對過測試集擬合問題的思考,可是也提出了一些論文中不恰當的地方。性能

最後,大神也提出了本身的建議,經過高熵驗證過程(如k-fold驗證)來解決這個問題。學習

讓咱們先來看看這篇論文到底說了什麼。測試

bc1ff8dfffa237ba84ed1249b26f24775b73b157

這篇論文建立了一組真正「未出現過」的同類圖像來測量 CIFAR-10 分類器的準確率,以驗證當前的測試集是否會帶來過擬合風險。大數據

論文中稱,咱們一般只能獲取具有一樣分佈的有限新數據。如今你們廣泛接受在算法和模型設計過程當中屢次重用一樣的測試集。但顯而易見的是,當前的研究方法論忽視了一個關鍵假設:分類器與測試集應該獨立存在。設計

這種不獨立帶來了顯而易見的威脅——研究社區可能會設計出只在特定測試集上性能良好,但沒法泛化至新數據的模型。3d

大數據文摘微信公衆號後臺回覆"過擬合"下載本篇論文blog

顯而易見,目前深度學習領域的不少「標題黨論文」,都存在驗證集過擬合問題,包括CIFAR10在內的知名基準測試集。深度學習

相關文章
相關標籤/搜索