一)未標記樣本算法
(二)生成式方法函數
(三)半監督SVM性能
(四)圖半監督學習學習
(五)基於分歧的方法設計
(六)半監督聚類io
未標記樣本基礎
讓學習器不依賴外界交互,自動地利用未標記樣原本提高學習性能,就是半監督學習(semi-supervised learning)。學習方法
要利用未標記樣本,必然要作一些未標記樣本所揭示的數據分佈信息與類別標記相聯繫的假設。最多見的是「聚類假設」(cluster assumption),即假設數據存在簇結構,同一個簇樣本屬於同一個類別。半監督學習中另外一個常見假設是「流形假設」(manifold assumption),即假設數據分佈在一個流形結構上,鄰近的樣本擁有類似的輸出值。「鄰近」程度經常使用「類似」程度來刻畫,所以,流行假設可看做聚類假設的推廣,但流形假設對輸出值沒有限制,所以比聚類假設的適用範圍更廣,可用於更多類型的學習任務。事實上,不管聚類假設仍是流形假設,其本質都是「類似的樣本擁有類似的輸出」這個基本假設。重構
半監督學習可進一步劃分爲純(pure)半監督學習和直推學習(transductive learning),前者假定訓練數據中的未標記樣本並不是待預測數據,然後者則假定學習過程當中所考慮的未標記樣本恰是待預測數據,學習的目的就是在這些未標記樣本上得到最優泛化性能。換言之,純半監督學習是基於「開放世界」假設,但願學得模型能適用於訓練過程當中未觀察到的數據;而直推學習是基於「封閉世界」假設,僅試圖對學習過程當中觀察到的未標記數據進行預測。sed
圖半監督學習
給定一個數據集,咱們可將其映射爲一個圖,數據集中每一個樣本對應於圖中一個結點,若兩個樣本之間的類似度很高(或相關性很強),則對應結點之間存在一條邊,邊的「強度」(strength)正比於樣本之間的類似度(或相關性)。咱們可將有標記樣本所對應的結點想象爲染過色,而未標記樣本所對應的結點還沒有染色。因而,半監督學就對應於「顏色」在圖上擴散或傳播的過程。因爲一個圖對應了一個矩陣,這使得咱們能基於矩陣運算來進行半監督學習算法的推到和分析。
圖半監督學習方法在概念上至關清晰,且易於經過對所涉矩陣運算的分析來探索算法性質。但此類算法的缺陷也至關明顯。首先是在存儲開銷上,若樣本數爲O(m),則算法中所涉及的矩陣規模未O(m2),這使得此類算法很難直接處理大規模數據;另外一方面,因爲構圖過程僅能考慮訓練樣本集,難以判斷新樣本在圖中的位置,所以,在接收到新樣本時,或是將其加入原數據集對圖進行重構並從新進行標記傳播,或是需引入額外的預測機制。
基於分歧的方法
與生成式方法、半監督SVM、圖半監督學習等基於單學習器利用未標記數據不一樣,基於分歧的方法(disagreement-base methods)使用多學習器,而學習器之間的「分歧」(disagreement)對未標記數據的利用相當重要。
基於分歧的方法只需採用合適的基學習器,就能較少受到模型假設、損失函數非凸性和數據規模的影響,學習方法簡單有效、理論基礎相對堅實、適用範圍較爲普遍。爲了使用此類方法,需能生成具備顯著分歧、性能尚可的多個學習器,但當有標記樣本不多,尤爲是數據不具備多視圖時,要作到這一點並不容易,需有技巧的設計。
半監督聚類
聚類是一種典型的無監督學習任務,然而在現實聚類任務中咱們每每能得到一些額外的監督信息,因而可經過半監督聚類(semi-supervised clustering)來利用監督信息以得到更好的聚類效果。
聚類任務中得到的監督信息大體有兩種類型。第一種類型是「必連」(must-link)與「勿連」(cannot-link)約束,前者是指樣本必屬於同一個簇,後者是指樣本必不屬於同一個簇;第二種類型的監督信息則是少許的有標記樣本。
生成式方法
生成式方法(generative methods)是直接基於生成式模型的方法。此類方法假設全部數據(不管是否有標記)都是由同一個潛在的模型「生成」的。這個假設使得咱們能經過潛在模型的參數將未標記數據與學習目標聯繫起來,而未標記數據的標記則可看做模型的缺失參數,一般可基於EM算法進行極大似然估計求解。此類方法的區別主要在於生成式模型的假設,不一樣的模型假設將產生不一樣的方法。
半監督SVM
半監督支持向量機(Semi-Supervised Support Vector Machine,簡稱 S3VM)是支持向量機在半監督學習上的推廣。在不考慮未標記樣本時,支持向量機試圖找到最大間隔劃分超平面,而在考慮未標記樣本後,S3VM試圖找到能將兩類有標記樣本分開,且穿過數據低密度區域的劃分超平面