數據不夠,是模型表現不佳的「藉口」,還是真正的問題所在?

「如果我能獲得更多的訓練數據,我的模型精度就會大大提高」,「我們應該通過API獲得更多的數據」,「源數據質量太差,我們無法使用」。 這是很多工程師在模型表現不力時給出的一些解釋或者理由。 數據作爲機器學習或分析項目的基礎,雖然現在擁有的可用數據比之前要多,但是數據不足或者數據類型不匹配等問題並不少見。 然而如何知道這些問題是真正的問題點還是僅僅是藉口呢?換句話說,如何發現數據是否是項目的限制因素?
相關文章
相關標籤/搜索