處理數據不平衡

這幾年來,機器學習和數據挖掘非常火熱,它們逐漸爲世界帶來實際價值。與此同時,越來越多的機器學習算法從學術界走向工業界,而在這個過程中會有很多困難。數據不平衡問題雖然不是最難的,但絕對是最重要的問題之一。 一、數據不平衡 在學術研究與教學中,很多算法都有一個基本假設,那就是數據分佈是均勻的。當我們把這些算法直接應用於實際數據時,大多數情況下都無法取得理想的結果。因爲實際數據往往分佈得很不均勻,都會存
相關文章
相關標籤/搜索