機器學習非平衡數據集概述

定義:不平衡數據集:在分類等問題中,正負樣本,或者各個類別的樣本數目不一致。 研究不平衡類通常認爲不平衡意味着少數類只佔比10~20%。實際上,一些數據集遠比這更不平衡。例如: 每年大約有2%的信用卡賬戶被欺騙。(大多數欺詐檢測領域嚴重不平衡。) 狀態醫療甄別通常在大量不存在此狀態的人口中檢測極少數有此狀態的人(比如美國的HIV攜帶者僅佔0.4%)。 磁盤驅動器故障每年約1%。 網絡廣告的轉化率估
相關文章
相關標籤/搜索