如何解決機器學習中的數據不平衡問題

越來越多的機器學習算法從學術界走向工業界,而在這個過程中會有很多困難,數據不平衡問題雖然不是最難的,但絕對是最重要的問題之一。 一  數據不平衡 在學術研究和教學中,很多算法都有一個基本假設,就是數據分佈是均勻的。當我們把這些算法直接應用在實際數據中時,大多數情況下都無法取得理想的結果,因爲實際數據往往分佈的很不均衡,都存在長尾效應。 可以看到大部分微博的總互動數(被轉發,評論和點贊數量)在0-5
相關文章
相關標籤/搜索