PULearning的應用場景是,咱們能夠清晰地肯定正樣本,可是不能肯定負樣本,由於它有多是正樣本,只是咱們尚未證實。app
這時咱們能夠把這部分不肯定的樣本稱爲無標籤樣本U,加上正樣本P來創建模型。機器學習
問題能夠轉化爲一個有約束條件的最優化問題:學習
在保證正例中錯誤率低於1-r的條件下,最小化無標籤樣本中U的正例數目。優化
創建PU分類器有兩種方法:spa
兩步方法two- step approachblog
直接方法direct approach方法
two-step approach:im
第一階段:從未標記實例中選擇可靠的負例集RN,作法是:數據
在P中隨機選取一部分正例S加入U中,這時兩個數據集是P-S,咱們叫作ps,和U+S,咱們叫作us,用ps和us訓練一個模型gmargin
而後用g對無標籤樣本U作分類,獲得每一個樣本的機率,設定一個閾值a,若是樣本機率低於a那麼咱們認爲是一個可靠負例
步驟:
第二階段:利用正例P和可靠負例RN,訓練一個傳統的機器學習分類模型,用來預測新樣本。