DataScience：對嚴重不均衡數據集進行多種採樣策略(隨機過抽樣、SMOTE過採樣、SMOTETomek綜合採樣、改變樣本權重等)簡介、經驗總結之詳細攻略算法

目錄學習

對嚴重不均衡數據集進行多種採樣策略(隨機過抽樣、SMOTE過採樣、SMOTETomek綜合採樣、改變樣本權重)之詳細攻略spa

過採樣blog

隨機過採樣ci

SMOTE過採樣get

欠採樣class

Tomek Link法欠採樣變量

SMOTE過採樣+TomekLink互聯網

對嚴重不均衡數據集進行多種採樣策略(隨機過抽樣、SMOTE過採樣、SMOTETomek綜合採樣、改變樣本權重)之詳細攻略

過採樣

對小類的數據樣本進行採樣來增長小類的數據樣本個數，一般增長部分小類樣本數據的副本。過採樣會隨機複製少數樣例以增大它們的規模。過採樣會使變量的方差表面上比實際上更小。

隨機過採樣

隨機過採樣並非將原始數據集中佔比少的類簡單的乘個指定的倍數，而是對較少類按必定比例進行必定次數的隨機抽樣，而後將每次隨機抽樣所獲得的數據集疊加。但若是隻是簡單的隨機抽樣也不免會出現問題，由於任意兩次的隨機抽樣中，可能會有重複被抽到的數據，因此通過屢次隨機抽樣後疊加在一塊兒的數據中可能會有很多的重複值，這便會使數據的變異程度減少。因此這是隨機過採樣的弊端。

SMOTE過採樣

SMOTE過採樣法的出現正好彌補了隨機過採樣的不足。但並不太適合數據不平衡的散點圖，以下所示。

圖中的黑點是呈現U型曲線的分佈，在這個狀況下，SMOTE算法的第四步做中間插值後，可能這個新插入的點恰好就是某個白點所在的點。原本是0的地盤，密密集集的0當中忽然給生硬的插進去了一個1，這就使數據又重複了。

欠採樣

對大類的數據樣本進行採樣來減小該類數據樣本的個數，一般刪除部分大類樣本數據。欠採樣則隨機地少採樣主要的類。欠採樣會讓獨立變量（independent variable）的方差看起來比其實際的方差更高。

Tomek Link法欠採樣

上圖爲 Tomek Link 欠採樣法的核心。不難發現左邊的分佈中 0-1 兩個類別之間並無明顯的分界。Tomek Link 法處理後，將佔比多的一方（0），與離它(0)最近的一個少的另外一方 (1) 配對，然後將這個配對刪去，這樣一來便如右邊所示構造出了一條明顯一些的分界線。因此說欠採樣須要在佔比少的那一類的數據量比較大的時候使用（大型互聯網公司與銀行），畢竟一命抵一命...

SMOTE過採樣+TomekLink

綜合採樣的核心：先使用過採樣，擴大樣本後再對處在膠着狀態的點用 Tomek Link法進行刪除，有時候甚至連 Tomek Link 都不用，直接把離得近的對所有刪除，由於在進行過採樣後，0 和 1 的樣本量已經達到了 1：1。

數據加權——可理解爲欠採樣

將大類樣本依據類別分佈比例（權值）隨機劃分紅一系列不相交子集，分別將這些不相交子集跟小類樣本結合，組成一系列平衡的分類子問題，單獨訓練成子分類器，最後將這些子分類器的輸出進一步學習成組合分類器；

集成方法

對大類和小類類分別進行屢次重採樣，採用多數投票的方法進行集成學習。

代價敏感方法

賦予各個類別不一樣的錯分代價，對錯分小類樣本作更大的懲罰迫使最終分類器對正類樣本有更高的識別率；

一分類

即將研究問題視做一分類（異常檢測）問題。

經驗總結

常規作法爲對大類樣本欠採樣，對小類樣本過採樣，可是欠採樣過程會致使大量的信息損失，過採樣因爲引入大量的副本數據，容易出現過擬合現象。爲解決上述問題，業界提出了多種改進方法，例如SMOTE，ADASYN等。

參考文章
不平衡數據集處理——信用卡欺詐行爲檢測