機器學習經驗整理

1、開發集與測試集服從同一分佈 開發集效果好,測試集效果不好,證明算法在開發集上過擬合。 2、開發集與測試集分佈不同 開發集上過擬合;測試集上的數據分佈不同,測試集表現的性質更難預測 3、確定數據集,建議開發集與測試集數據分佈一致 4、開發集的數據樣本數量能大到區分不同算法性能的提高,一般數據樣本數量大於10000;互聯網公司開發集數量比較大,因爲涉及到指標微小提高影響利潤和績效;開發集不是越大越
相關文章
相關標籤/搜索