Active learning process算法
算法:主動學習算法僞代碼描述函數
輸入:未標記樣本U,標記樣本集L,學習引擎LE,採樣引擎SE學習
輸出:學習引擎SEspa
BeginFor:i=1,2,…,Nip
Train(LE,L); //經過標記樣本集L訓練分類器fit
T=Test(LE,U);io
S=Select(SE,U);sed
Label(S) ; //對集合S中的樣本進行標記方法
L<—L + Sim
U<—U - S
Until 迭代次數達到某閾值,或達到其餘終止條件
Active Learning
- Membership Query Synthesis
- Stream-Based Selective Sampling
- Pool-Based Active Learning
Membership Query Synthesis
- 實驗者能夠選擇詢問輸入空間中任何一個未標識的實例,包括實驗者本身建立的,而不單單是來自某個天然分佈的實例。好的詢問關係常常是易處理的或者在有限的領域內是有效的。
Stream-Based Selective Sampling
- 基於不肯定度縮減的方法(熵,信息量)
- 基於版本空間(version space)的縮減方法(QBC)
- 基於泛化偏差縮減的方法(損失函數,找偏差縮減最大的)
基於不肯定度縮減的方法
- 基準分類器選擇最不能肯定其分類的實例進行標識,這種方法以信息熵做爲衡量樣例所含信息量大小的度量。從幾何角度看這種方法優先選擇靠近分類邊界的實例,又稱爲最近邊界法。
基於版本空間縮減的方法
- 選擇那些訓練後可以最大程度縮減版本空間的實例進行標識。(QBC)
- QBC算法從版本空間中隨機選擇若干假設構成一個委員會,而後選擇委員會中預測分歧度最大的實例進行標註。
- 分歧度:投票熵,Jensen-Shannon分歧度,Kullback-Leibler分歧度
基於泛化偏差縮減的方法
- 選擇可以是將來泛化偏差最大程度縮小的實例。
- 首先選擇一種損失函數用於估計將來錯誤率,而後將未標識實例集中的每個實例都做爲下一個可能的選擇,分別估計其能給基準分類器帶來的偏差縮減,選擇估計偏差縮減最大的那個實例進行標識。
Uncertainty Sampling
- 選擇不肯定度最大樣本進行標記,正類後驗機率接近0.5的實例。若是小於0.5 說明接近負類。大於0.5說明接近正類。
- 支持向量機的不肯定度實例選擇則是選擇詢問最靠近線性決策邊界的實例。
Query-By-Committee
- 委員會詢問選擇算法不直接計算分類偏差,而是根據本身已標識實例集訓練兩個或多個分類器,組成「委員會」,利用委員會對未標識實例進行標識投票,而後選擇詢問投票最不一致的實例。
- 計算簡單,評價未標識實例,只須要一次內積運算。
Expected Model Change
- 模型指望變化的直觀理解,算法傾向於選擇詢問對模型變化影響最大的實例. 這種方法在實驗研究中表現良好。
- 若是數據集的屬性或類標識數量比較多時, 計算複雜度很是高
THREE METHODS
- Variance Reduction 經過減少方差來減少實驗者的將來偏差。
- Estimated Error Reduction 最小估計偏差近似最優與模型無關 計算複雜度高
- Density-Weighted Methods 信息量最大實例不僅是不肯定的並且仍是要具備表明性的。