機器學習訓練集/開發集/測試集挑選

在實際應用領域,通常將數據集分紅三塊,訓練集:用來訓練算法;開發集:用來進行特徵選擇或者調參;測試集:用來檢測算法的表現,所以測試集應該可以反映和包含現實的真正數據分佈,而不是假設分佈。算法 在實際算法迭代過程當中,咱們最後但願獲得的結果是算法在測試集上表現的很是優秀;可是,最近讀吳恩達老師的筆記:有時可能咱們須要決定投資多少去獲取好的開發集和測試集。切記不要假定你的訓練集分佈和測試集分佈必須是同
相關文章
相關標籤/搜索