對於訓練集與驗證集測試集分佈不同的處理辦法

時間 2021-01-16

原文原文鏈接

貓的分類舉例：假設我們可以從網上獲取大量的高清晰的貓的圖片去做分類，如20W張，但是隻能獲取少量利用手機拍攝的不清晰的圖片，如1W張。但是我們系統的目的是應用到手機上做分類。也就是說，我們的訓練集和開發集、測試集來自於不同的分佈。那麼我們如何去確定是由於分佈不匹配的問題導致開發集的誤差，還是由於算法中存在的方差問題所致？