A brief introduction to weakly supervised learning（簡要介紹弱監督學習）

by 南大周志華vue

摘要算法

監督學習技術經過學習大量訓練數據來構建預測模型，其中每一個訓練樣本都有其對應的真值輸出。儘管現有的技術已經取得了巨大的成功，但值得注意的是，因爲數據標註過程的高成本，不少任務很難得到如所有真值標籤這樣的強監督信息。所以，可以使用弱監督的機器學習技術是可取的。本文綜述了弱監督學習的一些研究進展，主要關注三種弱監督類型：不徹底監督，即只有一部分樣本有標籤；不確切監督，即訓練樣本只有粗粒度的標籤；以及不許確監督，即給定的標籤不必定老是真值。安全

關鍵詞：機器學習，弱監督學習，監督學習oracle

1 概述app

機器學習在多種任務中取得了巨大成功，尤爲是在分類和迴歸等監督學習任務中。預測模型是從一個包含大量訓練樣本的訓練數據集中學習，其中每一個樣本都對應一個事件或對象。一個訓練樣本由兩部分組成：一個描述事件/對象的特徵向量（或實例），以及一個表示真值輸出的標籤。在分類任務中，標籤表明訓練樣本所屬的類別；在迴歸任務中，標籤是樣本所對應的實數值。大部分紅功的技術，例如深度學習【1】，都須要含有真值標籤的大規模訓練數據集；然而在不少任務中，因爲數據標註過程的高昂代價，很難得到強監督信息。所以，研究者十分但願機器學習技術可以在弱監督前提下工做。dom

弱監督一般分爲三種類型。第一種是不徹底監督，即只有訓練數據集的一個（一般很小的）子集有標籤，其它數據則沒有標籤。在不少任務中都存在這種狀況。例如，在圖像分類中，真值標籤是人工標註的；從互聯網上得到大量的圖片很容易，然而因爲人工標註的費用，只能標註其中一個小子集的圖像。第二種是不確切監督，即只有粗粒度的標籤。又以圖像分類任務爲例。咱們但願圖片中的每一個物體都被標註；然而咱們只有圖片級的標籤而沒有物體級的標籤。第三種是不許確監督，即給定的標籤並不老是真值。出現這種狀況的緣由有，標註者粗心或疲倦，或者一些圖像自己就難以分類。機器學習

弱監督學習是一個總括性的術語，它涵蓋了試圖經過較弱的監督來構建預測模型的各類研究。在本文中，咱們將會討論這一領域的一些進展，重點放在不徹底、不確切和不許確的監督條件下進行的學習。咱們會分別討論這三種情形，可是值得指出的是，在實際操做中，它們經常同時出現。爲了簡便起見，在本文中咱們考慮有兩個可交換的類別Y、N的二分類問題。形式化表達爲，在強監督條件下，監督學習任務就是從訓練數據集D = {(x_1, y_1), …, (x_m, y_m)}中學習 f: X -> Y , 其中X是特徵空間，Y = {Y, N}, x_i 屬於X, y_i 屬於Y。ide

咱們假設 (x_i, y_i) 是根據未知的獨立同分布D生成的。換言之，是 i.i.d. 樣本。性能

圖1示例了咱們將在本文中討論的三種弱監督學習。學習

圖1:三種弱監督學習的示意圖。長方形表示特徵向量；紅色或藍色表示標籤；「？」表示標註多是不許確的。中間的子圖表示了幾種弱監督的混合情形。

2 不徹底監督

不徹底監督是指訓練數據中只有一小部分數據有標籤，而大部分數據沒有標籤，且這一小部分有標籤的數據不足以訓練一個好的模型。形式化表達爲，模型的任務是學習：f: X -> Y，訓練數據爲：D = {(x_1, y_1), …, (x_l, y_l), x_{l+1}, …, x_m}, 即有l個數據有標籤（如y_i所示），u = m-l 個數據沒有標籤，其餘條件與強監督學習（如摘要最後的定義）相同。爲便於討論，咱們將l個已經標註的數據記爲「標註數據」，u個沒有標籤的數據稱爲「未標註數據」。

有兩種主要的技術可以實現此目的，即主動學習（active learning)【2】和半監督學習（semi-supervised learning）【3-5】。

主動學習假設有一個「神諭」（oracle），好比人類專家，能夠向它查詢所選未標註數據的真值標籤。相比之下，半監督學習試圖在沒有人爲干預的前提下，自動利用已標註數據、以及未標註數據來提高學習性能。有一種特殊的半監督學習，稱爲直推式學習（transductive learning），它與（純）半監督學習之間的差異在於，對測試數據（訓練模型要預測的數據）的假設不一樣。直推式學習持有「封閉世界」的假設，即測試數據是事先給定的，且目標就是優化模型在測試數據上的性能；換句話說，未標註數據就是測試數據。純半監督學習持有「開放世界」的假設，即測試數據是未知的，且未標註數據不必定是測試數據。圖2直觀的表示了主動學習、（純）半監督學習、直推學習之間的區別。

圖2: 主動學習、（純）半監督學習以及直推學習。

2.1 有人爲干預

主動學習【2】假設未標註數據的真值標籤能夠向先知」查詢。簡單起見，假設標註成本只與查詢次數有關。那麼主動學習的目標就是最小化查詢次數，以使訓練一個好模型的成本最小。

給定少許標註數據以及大量未標註數據，主動學習傾向於選擇最有價值的未標註數據來查詢先知。衡量選擇的價值，有兩個普遍使用的標準，即信息量（informativeness）和表明性（representativeness）【6】。信息量衡量一個未標註數據可以在多大程度上下降統計模型的不肯定性，而表明性衡量一個樣本在多大程度上能表明模型的輸入分佈。

不肯定抽樣（uncertainty sampling）和投票詢問（query-by-committee）是基於信息量的典型方法。前者訓練單個學習器，選擇學習器最不確信的樣本向先知詢問標籤信息【7】。後者生成多個學習器，選擇各個學習器爭議最大的樣本向先知詢問標籤信息【8，9】。基於表明性的模型一般的目標是用聚類方法來挖掘未標註數據的集羣結構【10，11】。

基於信息量的方法，主要缺點是爲了創建選擇查詢樣本所需的初始模型，而嚴重依賴於標註數據，而且當標註樣本較少時，其性能一般不穩定。基於表明性的方法，主要缺點在於其性能嚴重依賴於由未標註數據控制的的聚類結果，當標註數據較少時尤爲如此。所以，幾種最近的主動學習方法嘗試同時利用信息量和表明性度量【6，12】。

關於主動學習有不少理論性的研究。例如，已經證實對於可實現（realizable）狀況（假設數據在假設的空間中徹底可分），隨着樣本複雜性的增長，主動學習的性能能夠得到指數提高【13，14】。對於不可實現（non-realizable）的狀況（即因爲噪聲的存在，以至數據在任何假設下都不徹底可分），在沒有對噪聲模型的先驗假設時，主動學習的下确界至關於被動學習的上確界，換句話說，主動學習並非很是有用。當假設噪聲爲Tsybakov噪聲模型時，咱們能夠證實，在噪聲有界的條件下，主動學習的性能可呈指數級提高【16，17】；若是可以挖掘數據的一些特定性質，像多視角結構（multi-view structure），那麼即便在不對噪聲進行限制的狀況下，其性能也能呈指數級提高【18】。換句話說，只要設計得巧妙，主動學習在解決困難問題時仍然有用。

2.2 無人爲干預

半監督學習【3-5】是指在不詢問人類專家的條件下挖掘未標註數據。爲何未標註數據對於構建預測模型也會有用？作一個簡單的解釋【19】，假設數據來自一個由n個高斯分佈混合的高斯混合模型，也就是說：f(x | \theta) = \sum_{j=1}^n \alpha_j f(x | \theta_j) (1)其中\alpha_j爲混合係數，\sum_{j=1}^n \alpha_j = 1 而且 \theta = {\theta_j} 是模型參數。在這種狀況下，標籤y_i能夠看做一個隨機變量，其分佈 P(y_i | x_i, g_i)由混合成分g_i和特徵向量x_i決定。最大化後驗機率有：h(x) = argmax_c \sum_{j=1}^n P(y_i = c | g_i = j, x_i) \times P(g_i = j | x_i) (2)。其中：P(g_i = j | x_i) = \frac{\alpha_j f(x_i | \theta_j)} {\sum_{k=1}^n \alpha_k f(x_i | \theta_k)} (3)

h(x)能夠經過用訓練數據估計 P(y_i = c | g_i = j, x_i) 和 P(g_i = j | x_i) 來求得。很明顯只有第一項須要標籤信息。所以，未標註數據能夠用來估計提高對第二項的估計，從而提高學習模型的性能。

圖3: 未標註數據的做用。

圖3給出了一個直觀的解釋。若是咱們只能根據惟一的正負樣本點來預測，那咱們就只能隨機猜想，由於測試樣本剛好落在了兩個標註樣本的中間位置；若是咱們可以觀測到一些未標註數據，例如圖中的灰色樣本點，咱們就能以較高的置信度斷定測試樣本爲正樣本。在此處，儘管未標註樣本沒有明確的標籤信息，它們卻隱晦地包含了一些數據分佈的信息，而這對於預測模型是有用的。

實際上，在半監督學習中有兩個基本假設，即聚類假設（cluster assumption）和流形假設（manifold assumption）；兩個假設都是關於數據分佈的。前者假設數據具備內在的聚類結構，所以，落入同一個聚類的樣本類別相同。後者假設數據分佈在一個流形上，所以，相近的樣本具備類似的預測。兩個假設的本質都是類似的數據輸入應該有類似的輸出，而未標註數據有助於揭示出樣本點之間的類似性。

半監督學習有四種主要方法，即生成式方法（generative methods），基於圖的方法（graph-based methods），低密度分割法（low-density separation methods）以及基於分歧的方法（disagreement methods）。

生成式方法【19，20】假設標註數據和未標註數據都由一個固有的模型生成。所以，未標註數據的標籤能夠看做是模型參數的缺失，並能夠經過EM算法（指望-最大化算法）等方法進行估計【21】。這類方法隨着爲擬合數據而選用的不一樣生成模型而有所差異。爲了達到好的性能，一般須要相關領域的知識來選擇合適的生成模型。也有一些將生成模型和判別模型的優勢結合起來的嘗試【22】。

基於圖的方法構建一個圖，其節點對應訓練樣本，其邊對應樣本之間的關係（一般是某種類似度或距離），然後依據某些準則將標註信息在圖上進行擴散；例如標籤能夠在最小分割圖算法獲得的不一樣子圖內傳播【23】。很明顯，模型的性能取決於圖是如何構建的【26-28】。值得注意的是，對於m個樣本點，這種方法一般須要O(m^2)存儲空間和O(m^3)計算時間複雜度。所以，這種方法嚴重受制於問題的規模；並且因爲難以在不重建圖的狀況下增長新的節點，因此這種方法天生難以遷移。

圖4: SVM和S3VM的不一樣分類界面，SVM只考慮標註數據（「+／-」點），S3VM既考慮標註數據也考慮未標註數據（灰色點）。

低密度分割法強制分類邊界穿過輸入空間的低密度區域。最著名的表明就是S3VMs（半監督支持向量機）【29-31】。圖4示意了通常的監督SVM和S3VM的區別。很明顯，S3VM試圖在保持全部標註樣本分類正確的狀況下，創建一個穿太低密度區域的分類界面。這一目標能夠經過用不一樣方法給未標註數據分配標籤來達成，而這每每會形成優化問題很複雜。所以，在這個方向不少的研究都致力於開發高效的優化方法。

基於分歧的方法【5，32，33】生成多個學習器，並讓它們合做來挖掘未標註數據，其中不一樣學習器之間的分歧是讓學習過程持續進行的關鍵。最爲著名的典型方法——聯合訓練（co-traing），經過從兩個不一樣的特徵集合（或視角）訓練獲得的兩個學習器來運做。在每一個循環中，每一個學習器選擇其預測置信度最高的未標註樣本，並將其預測做爲樣本的僞標籤來訓練另外一個學習器。這種方法能夠經過學習器集成來獲得很大提高【34，35】。值得注意的是，基於分歧的方法提供了一種將半監督學習和主動學習天然地結合在一塊兒的方式：它不只可讓學習器相互學習，對於兩個模型都不太肯定或者都很肯定但相互矛盾的未標註樣本，還能夠被選定詢問「先知」。

值得指出的是，儘管咱們指望經過利用未標註數據來提高學習性能，可是在一些狀況下，在通過半監督學習以後性能反而會降低。這個問題已經被提出而且研究了不少年【36】，然而直到最近纔有一些實質性的進展被報道出來【37】。咱們如今知道，對未標註數據的利用天然會要在多個模型中進行選擇，而不恰當的選擇可能會致使較差的性能。讓半監督學習「更安全」的基本策略是優化最差狀況下的性能，也許能夠經過模型集成機制來實現。

關於半監督學習有大量的理論研究【4】，有些甚至要早於「半監督學習」這個詞語的出現【38】。實際上最近有一篇研究，透徹研究了基於分歧的方法【39】。

3 不確切監督

不確切監督是指在某種狀況下，咱們有一些監督信息，可是並不像咱們所指望的那樣精確。一個典型的狀況是咱們只有粗粒度的標註信息。例如，在藥物活性預測中【40】，目標是創建一個模型學習已知分子的知識，來預測一種新的分子是否可以用於某種特殊藥物的製造。一種分子可能有不少低能量的形態，這種分子可否用於製做該藥物取決於這種分子是否有一些特殊形態。然而，即便對於已知的分子，人類專家也只知道其是否合格，而並不知道哪一種特定形態是決定性的。

形式化表達爲，這一任務是學習 f: X -> Y ，其訓練集爲 D = {(X_1, y_1), …, (X_m, y_m)}，其中 X_i = {x_{I, 1}, …, x_{I, m_i}}, X_i屬於X，且被稱爲一個包（bag），x_{i, j}屬於X，是一個樣本（j屬於{1, …, m_i}）。m_i是X_i中的樣本個數，y_i屬於Y = {Y, N}。當存在x_{i, p}是正樣本時，X_i就是一個正包（positive bag），其中p是未知的且p屬於{1, …, m_i}。模型的目標就是預測未知包的標籤。這被稱爲多示例學習（multi-instance learning）【40，41】。

對於多示例學習，有不少有效的算法。實際上，幾乎全部的監督學習算法都有其對應的多示例版本。大多數算法都試圖調整單實例監督學習算法，使其適配多示例表示，其主要方法是將對示例區分轉變到對包的區分上來【42】；其餘一些算法試圖經過表示轉換，調整多實例表示使其適配單實例算法【43，44】。還有一種分類方式，將算法分爲：示例空間模型，即將示例級的反饋進行融合；包空間模型，即將包作爲一個總體；以及嵌入空間模型，即學習是在一個嵌入特徵空間中進行的。值得注意的是，示例一般被視爲獨立同分布的樣本；然而【46】代表，儘管包可假設爲獨立同分布的，可是多示例學習中的樣本不該被假設爲相互獨立的。基於這一觀點，一些有效的算法被提了出來【47】。

多示例學習已經成功應用於多種任務，例如圖像分類、檢索、註釋【48-50】，文本分類【51，52】，垃圾郵件檢測【53】，醫療診斷【54】，人臉、目標檢測【55，56】，目標類別發現【57】，目標跟蹤【58】等等。在這些任務中，咱們能夠很天然地將一個真實的目標（例如一張圖片或一個文本文檔）看做一個包；然而，不一樣於藥物活性預測中包裏有自然的示例（即分子的不一樣形態），這裏的示例須要生成。一個包生成器明確如何生成示例來組成一個包。一般狀況下，從一幅圖像中提取的不少小圖像塊就做爲能夠這個圖像的示例，而章節、段落甚至是句子能夠做爲一個文本文檔的示例。儘管包生成器對於學習效果有重要的影響，但直到最近纔出現關於圖像包生成器的全面研究【59】；研究代表一些簡單的密集取樣包生成器要比複雜的生成器性能更好。圖5顯示了兩個簡單而有效的圖像包生成器。

圖5: 圖像包生成器。假設每張圖片的尺寸爲8*8個像素，每一個小塊的尺寸爲2*2個像素。單塊（Single Blob, SB）以無重疊地滑動的方式，會給一個圖片生成16個實例，即每一個實例包含4個像素。領域單塊（SBN）以有重疊地滑動的方式，則會給每個圖片生成9個實例，即每一個實例包含20個像素。

多示例學習的原始目標是預測未知包的標籤；但有研究試圖識別使得正包爲正的關鍵示例（key instance）【31，60】。這對於有些任務是頗有用的，例如在沒有精細標註的圖像數據中尋找感興趣的區域。值得注意的是，標準的多示例學習【40】假設每一個正包都必須包含一個關鍵示例，而有的研究則假設沒有關鍵示例，每一個示例都對包的標籤有貢獻【61，62】，或甚至假設有多個概念，僅當包中示例同時知足全部概念時纔是正包【63】。在【41】中能夠找到更多變體。

早期的理論研究結果【64-66】代表多示例學習很難應對異質（heterogeneous）案例，即包中的示例由不一樣的分類規則進行分類，而在同質（homogeneous）案例是可學習的，即包全部示例按照同一規則進行分類。幸運的是，幾乎全部實際的多示例任務都屬於同質案例。他們假設包中示例相互獨立。包中示例沒有相互獨立假設的分析更具挑戰性，也出現得晚得多，這些分析代表在同質性類中時，至少在一些狀況下包之間的任意分佈都是可學習的【67】。然而，與算法和應用研究的繁榮相比，多示例學習的理論成果很是少，由於這種分析實在是太困難了。

4 不許確監督

不許確監督關注監督信息不老是真值的情形；換句話說，有些標籤信息多是錯誤的。其形式化表示與概述結尾部分幾乎徹底相同，除了訓練數據集中的y_i多是錯誤的。

一個典型的狀況是在標籤有噪聲的條件下學習【68】。已有不少相關理論研究【69-71】，這些研究大多都假設存在隨機類型的噪聲，即標籤受制於隨機噪聲。在實際中，一個基本的想法是識別潛在的誤分類樣本【72】，然後進行修正。例如，數據編輯（data-editing）方法【73】構建了一個相對鄰域圖，其中的每一個節點對應一個訓練樣本，鏈接標籤不一樣的兩個節點的邊稱爲一個切邊（cut edge）。然後衡量切邊權重的統計數據，直覺上，示例鏈接的切邊越多則越可疑。能夠刪除或者從新標註可疑示例，如圖6所示。值得指出的是，這種方法一般依賴近鄰信息，所以，這類方法在高維特徵空間並不十分可靠，由於當數據稀疏的時候，領域識別經常並不可靠。

圖6: 識別並刪除或從新標註可疑點。

一個最近出現的不許確監督的情景發生在衆包模式中（crowdsourcing）【74】，即一個將工做外包給我的的流行模式。對機器學習而言，用衆包模式爲訓練數據收集標籤是一種經濟的方式。具體而言，未標註數據被外包給大量的工人去標註。在著名的衆包系統 Amazon Mechanical Turk（ AMT）上用戶能夠提交一個任務，例如標註圖像有樹仍是沒有樹，並向標註工人支付少許的報酬。這些工人一般來自大社會，他們每一個人都會執行多種多樣的任務。他們一般是相互獨立的，報酬不高，並根據本身的判斷提供標籤。在工人之中，一些可能比另外一些更可靠；然而用戶一般不會事先知道，由於工人的身份是保密的。還有可能存在「垃圾製造者」，他們幾乎是隨機地提供標籤（例如一個機器人冒充人類來獲取報酬），或者「反抗者」，他們故意提供錯誤答案。除此以外，有些任務對於不少工人來講可能太困難了。所以，用從衆包返回的不許確的監督信息進行學習，並保持學習到的性能，是有意義的。

不少研究試圖從衆包標籤中推理出真值標籤。有集成方法【35】的理論支持的多票數策略在實際中獲得了普遍應用，並有不錯的性能【75，76】，所以經常做爲基線標準。若是工人的質量和任務的難度能夠建模，那麼咱們就可指望實現更好的性能，其典型的方法是在不一樣的任務中給工人不一樣的權重。爲此，一些方法試圖創建機率模型，然後使用EM算法來進行估計【77，78】。最小最大化熵準則也在一些方法中獲得使用【35】。垃圾提供者能夠在機率模型中被剔除【79】。最近有研究給出了剔除低品質工人的通常理論條件【80】。

對機器學習而言，衆包一般用來收集標籤，而從這些數據中學習獲得的模型的性能要比標籤的質量更爲重要。有不少關於在weak teachers或衆包標籤學習的研究【81，82】，這與用噪聲標籤學習很相近（在本節開頭部分有介紹）；其中的區別在於，對於衆包系統而言，咱們很容易重複提取某個示例的衆包標籤。所以，在衆包學習中考慮節約成本的效果是很重要的，【83】給出了一個最小化的衆包標籤數量的上界，也就是說有效衆包學習的最小化成本。不少研究工做致力於任務分配和預算分配，試圖在精度和標註花費之間取得平衡。爲此，離線的不能自適應的任務分配機制【84，85】，以及在線的自適應的任務分配機制【86，87】都有理論支撐。值得注意的是，大多數研究都採用了Dawid-Skene模型，它假設不一樣任務的潛在成本都是相同的，而不多研究更復雜的成本設置。

設計一個有效的衆包協議也十分重要。在【89】中，提供了不肯定選項，這樣工人在不肯定的時候不會被強制要求給出標籤；這個選項在理論上可以提高標籤的可靠性【90】。在【91】中，引入了一個「雙倍或沒有」的刺激兼容機制，以確保工人在自已確信的基礎上進行誠實的回答；假設全部的工人都想最大化他們的指望報酬，該機制能夠剔除垃圾提供者。

5 結論

在帶有真值標籤的大量訓練樣本的強監督條件下，監督學習技術已經取得了巨大的成功。然而，在真實的任務中，收集監督信息每每代價高昂，所以探索弱監督學習一般是更好的方式。

本文聚焦於三種典型的弱監督學習：不徹底、不確切和不許確監督。儘管三者能夠分開討論，但在實際中它們經常同時出現，如圖1所示。固然也有針對「混合」狀況的相關研究【52，92，93】。此外，還有一些其餘類型的弱監督。例如，延時監督也能夠視爲弱監督，它主要出如今加強學習環境中【94】。因爲篇幅限制，本文與其說是一個全面的總結回顧，不如說只是一個文獻的索引。對於一些細節感興趣的讀者能夠閱讀參考文獻中的相關文章。值得注意的是，愈來愈多的研究者開始關注弱監督學習，例如部分監督學習（partially supervised learning），主要關注不徹底監督的學習【95】，【96，97】，同時還有一些其餘關於弱監督的討論。

爲了便於討論，本文只關注了二分類問題，而大多數討論經稍事修改後就可推廣至多類問題或迴歸問題。在多類分類任務中可能出現更復雜的狀況【98】。在考慮多標籤學習（multi-label learning）【99】時狀況可能更爲複雜，此時每一個樣本可能被同時賦予多個標籤。用不徹底監督舉個例子：除了標註示例和未標註示例，多標籤任務還會遇到部分標註示例，也就是說一個訓練示例只給出了一部分標籤【100】。即便只考慮標註數據和未標註數據，這種狀況也要比單標籤有更多選項，例如在主動學習中，對於選定的未標註示例，既能夠詢問示例的全部標籤【101】，也能夠詢問某一個特定標籤【102】，還能夠給一對標籤的相關排序【103】。儘管如此，不管是何種數據、何種任務，弱監督學習正在變得愈來愈重要。

參考文獻：

Goodfellow I, Bengio Y and Courville A. Deep Learning. Cambridge: MIT Press, 2016.
Settles B. Active learning literature survey. Technical Re- port 1648. Department of Computer Sciences, University of Wisconsin at Madison, Wisconsin, WI, 2010 [ http://pages. cs.wisc.edu/∼bsettles/pub/settles.activelearning.pdf].
Chapelle O, Scho ̈lkopf B and Zien A (eds). Semi-Supervised Learning. Cambridge: MIT Press, 2006.
Zhu X. Semi-supervised learning literature survey. Technical Report 1530. Department of Computer Sciences, University of Wisconsin at Madison, Madison, WI, 2008 [ http://www.cs. wisc.edu/∼jerryzhu/pub/ssl ̇survey.pdf].
Zhou Z-H and Li M. Semi-supervised learning by disagreement. Knowl Inform Syst 2010; 24: 415–39.
Huang SJ, Jin R and Zhou ZH. Active learning by querying informative and representative examples. IEEE Trans Pattern Anal Mach Intell 2014; 36: 1936–49.
Lewis D and Gale W. A sequential algorithm for training text classi ers. In 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Dublin, Ireland, 1994; 3–12.
Seung H, Opper M and Sompolinsky H. Query by committee. In 5th ACM Workshop on Computational Learning Theory, Pitts- burgh, PA, 1992; 287–94.
Abe N and Mamitsuka H. Query learning strategies using boosting and bagging. In 15th International Conference on Ma- chine Learning, Madison, WI, 1998; 1–9.
Nguyen HT and Smeulders AWM. Active learning using pre- clustering. In 21st International Conference on Machine Learn- ing, Banff, Canada, 2004; 623–30.
Dasgupta S and Hsu D. Hierarchical sampling for active learn- ing. In 25th International Conference on Machine Learning, Helsinki, Finland, 2008; 208–15.
Wang Z and Ye J. Querying discriminative and representative samples for batch mode active learning. In 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Chicago, IL, 2013; 158–66.
Dasgupta S, Kalai AT and Monteleoni C. Analysis of perceptron-based active learning. In 28th Conference on Learn- ing Theory, Paris, France, 2005; 249–63.
Dasgupta S. Analysis of a greedy active learning strategy. In Advances in Neural Information Processing Systems 17, Cambridge, MA: MIT Press, 2005; 337–44.
Ka ̈a ̈ria ̈inen M. Active learning in the non-realizable case. In 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, Sydney, Australia, 2006; 63–77.
Balcan MF, Broder AZ and Zhang T. Margin based active learn- ing. In 20th Annual Conference on Learning Theory, San Diego, CA, 2007; 35–50.
Hanneke S. Adaptive rates of convergence in active learning. In 22nd Conference on Learning Theory, Montreal, Canada, 2009.
Wang W and Zhou ZH. Multi-view active learning in the non-realizable case. In Advances in Neural Information Processing Systems 23, Cambridge, MA: MIT Press, 2010; 2388–96.
Miller DJ and Uyar HS. A mixture of experts classi er with learning based on both labelled and unlabelled data. In Advances in Neural Information Processing Systems 9, Cam- bridge, MA: MIT Press, 1997; 571–7.
Nigam K, McCallum AK and Thrun S et al. Text classi cation from labeled and unlabeled documents using EM. Mach Learn 2000; 39: 103–34.
Dempster AP, Laird NM and Rubin DB. Maximum likelihood from incomplete data via the EM algorithm. J Roy Stat Soc B Stat Meth 1977; 39: 1–38.
Fujino A, Ueda N and Saito K. A hybrid genera- tive/discriminative approach to semi-supervised classier design. In 20th National Conference on Articial Intelligence, Pittsburgh, PA, 2005; 764–9.
Blum A and Chawla S. Learning from labeled and unlabeled data using graph mincuts. In ICML, 2001; 19–26.
Zhu X, Ghahramani Z and Lafferty J. Semi-supervised learn- ing using Gaussian elds and harmonic functions. In 20th International Conference on Machine Learning, Washington, DC, 2003; 912–9.
Zhou D, Bousquet O and Lal TN et al. Learning with local and global consistency. In Advances in Neural Information Processing Systems 16, Cambridge, MA: MIT Press, 2004; 321–8.
Carreira-Perpinan MA and Zemel RS. Proximity graphs for clustering and manifold learning. In Advances in Neural Information Processing Systems 17, Cambridge, MA: MIT Press, 2005; 225–32.
Wang F and Zhang C. Label propagation through linear neighborhoods. In 23rd International Conference on Machine Learning, Pittsburgh, PA, 2006; 985–92.
Hein M and Maier M. Manifold denoising. In Advances in Neural Information Processing Systems 19, Cambridge, MA: MIT Press, 2007; pp. 561–8.
Joachims T. Transductive inference for text classi cation using support vector machines. In 16th International Conference on Machine Learning, Bled, Slovenia, 1999; 200–9.
Chapelle O and Zien A. Semi-supervised learning by low density separation. In 10th International Workshop on Articial Intelligence and Statistics, Barbados, 2005; 57–64.
Li YF, Tsang IW and Kwok JT et al. Convex and scalable weakly labeled SVMs. J Mach Learn Res 2013; 14: 2151–88.
Blum A and Mitchell T. Combining labeled and unlabeled data with co- training. In 11th Conference on Computational Learning Theory, Madison, WI, 1998; 92–100.
Zhou Z-H and Li M. Tri-training: exploiting unlabeled data using three classiers. IEEE Trans Knowl Data Eng 2005; 17: 1529–41.
Zhou Z-H. When semi-supervised learning meets ensemble learning. In 8th International Workshop on Multiple Classi er Systems, Reykjavik, Iceland, 2009; 529–38.
Zhou Z-H. Ensemble Methods: Foundations and Algorithms. Boca Raton: CRC Press, 2012.
Cozman FG and Cohen I. Unlabeled data can degrade classi cation performance of generative classi ers. In 15th International Conference of the Florida Arti cial Intelligence Research Society, Pensacola, FL, 2002; 327–31.
Li YF and Zhou ZH. Towards making unlabeled data never hurt. IEEE Trans Pattern Anal Mach Intell 2015; 37: 175–88.
Castelli V and Cover TM. On the exponential value of labeled samples. Pattern Recogn Lett 1995; 16: 105–11.
Wang W and Zhou ZH. Theoretical foundation of co-training and disagreement-based algorithms. arXiv:1708.04403, 2017.
Dietterich TG, Lathrop RH and Lozano-Pe ́rez T. Solving the multiple-instance problem with axis-parallel rectangles. Artif Intell 1997; 89: 31–71.
Foulds J and Frank E. A review of multi-instance learning assumptions. Knowl Eng Rev 2010; 25: 1–25.
Zhou Z-H. Multi-instance learning from supervised view. J Comput Sci Technol 2006; 21: 800–9.
Zhou Z-H and Zhang M-L. Solving multi-instance problems with classi er ensemble based on constructive clustering. Knowl Inform Syst 2007; 11: 155–70.
Wei X-S, Wu J and Zhou Z-H Scalable algorithms for multi-instance learning. IEEE Trans Neural Network Learn Syst 2017; 28:975–87.
Amores J. Multiple instance classi cation: review, taxonomy and comparative study. Artif Intell 2013; 201: 81–105.
Zhou Z-H and Xu J-M. On the relation between multi-instance learning and semi-supervised learning. In 24th International Conference on Machine Learning, Corvallis, OR, 2007; 1167–74.
Zhou Z-H, Sun Y-Y and Li Y-F. Multi-instance learning by treating instances as non-i.i.d. samples. In 26th International Conference on Machine Learning, Montreal, Canada, 2009; 1249–56.
Chen Y and Wang JZ. Image categorization by learning and reasoning with regions. J Mach Learn Res 2004; 5: 913–39.
Zhang Q, Yu W and Goldman SA et al. Content-based image retrieval using multiple-instance learning. In 19th International Conference on Machine Learning, Sydney, Australia, 2002; 682–9.
Tang JH, Li HJ and Qi GJ et al. Image annotation by graph-based inference with integrated multiple/single instance representations. IEEE Trans Multimed 2010; 12: 131–41.
Andrews S, Tsochantaridis I and Hofmann T. Support vector machines for multiple-instance learning. In Advances in Neural Information Processing Systems 15, Cambridge, MA: MIT Press, 2003; 561–8.
Settles B, Craven M and Ray S. Multiple-instance active learning. In Advances in Neural Information Processing Systems 20, Cambridge, MA: MIT Press, 2008; 1289–96.
Jorgensen Z, Zhou Y and Inge M. A multiple instance learning strategy for combating good word attacks on spam lters. J Mach Learn Res 2008; 8: 993– 1019.
Fung G, Dundar M and Krishnappuram B et al. Multiple instance learning for computer aided diagnosis. In Advances in Neural Information Processing Sys- tems 19, Cambridge, MA: MIT Press, 2007; 425–32.
Viola P, Platt J and Zhang C. Multiple instance boosting for object detection. In Advances in Neural Information Processing Systems 18, Cambridge, MA: MIT Press, 2006; 1419–26.
Felzenszwalb PF, Girshick RB and McAllester D et al. Object detection with discriminatively trained part-based models. IEEE Trans Pattern Anal Mach Intell 2010; 32: 1627–45.
Zhu J-Y, Wu J and Xu Y et al. Unsupervised object class discovery via saliency- guided multiple class learning. IEEE Trans Pattern Anal Mach Intell 2015; 37: 862–75.
Babenko B, Yang MH and Belongie S. Robust object tracking with online multi- ple instance learning. IEEE Trans Pattern Anal Mach Intell 2011; 33: 1619–32.
Wei X-S and Zhou Z-H. An empirical study on image bag generators for multi-instance learning. Mach Learn 2016; 105:155–98.
Liu G, Wu J and Zhou ZH. Key instance detection in multi-instance learning. In 4th Asian Conference on Machine Learning, Singapore, 2012; 253–68.
Xu X and Frank E. Logistic regression and boosting for labeled bags of instances. In 8th Paci c-Asia Conference on Knowledge Discovery and Data Mining, Sydney, Australia, 2004; 272–81.
Chen Y, Bi J and Wang JZ. MILES: multiple-instance learning via embedded instance selection. IEEE Trans Pattern Anal Mach Intell 2006; 28: 1931–47.
Weidmann N, Frank E and Pfahringer B. A two-level learning method for gen- eralized multi-instance problem. In 14th European Conference on Machine Learning, Cavtat-Dubrovnik, Croatia, 2003; 468–79.
Long PM and Tan L. PAC learning axis-aligned rectangles with respect to product distributions from multiple-instance examples. Mach Learn 1998; 30: 7–21.
Auer P, Long PM and Srinivasan A. Approximating hyper-rectangles: learning and pseudo-random sets. J Comput Syst Sci 1998; 57: 376–88.
Blum A and Kalai A. A note on learning from multiple-instance examples. Mach Learn 1998; 30: 23–9.
Sabato S and Tishby N. Homogenous multi-instance learning with arbitrary dependence. In 22nd Conference on Learning Theory, Montreal, Canada, 2009.
Fre ́nay B and Verleysen M. Classi cation in the presence of label noise: a survey. IEEE Trans Neural Network Learn Syst 2014; 25: 845–69.
Angluin D and Laird P. Learning from noisy examples. Mach Learn 1988; 2: 343–70.
Blum A, Kalai A and Wasserman H. Noise-tolerant learning, the parity problem, and the statistical query model. J ACM 2003; 50: 506–19.
Gao W, Wang L and Li YF et al. Risk minimization in the presence of label noise. In 30th AAAI Conference on Arti cial Intelligence, Phoenix, AZ, 2016; 1575–81.
Brodley CE and Friedl MA. Identifying mislabeled training data. J Artif Intell Res 1999; 11: 131–67.
Muhlenbach F, Lallich S and Zighed DA. Identifying and handling mislabelled instances. J Intell Inform Syst 2004; 22: 89–109.
Brabham DC. Crowdsourcing as a model for problem solving: an introduction and cases. Convergence 2008; 14: 75–90.
Sheng VS, Provost FJ and Ipeirotis PG. Get another label? Improving data 8. quality and data mining using multiple, noisy labelers. In 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Las Ve- gas, NV, 2008; 614–22.
Snow R, O’Connor B and Jurafsky D et al. Cheap and fast - but is it good? Evaluating non-expert annotations for natural language tasks. In 2008 Conference on Empirical Methods in Natural Language Processing, Honolulu, HI, 2008; 254–63.
Raykar VC, Yu S and Zhao LH et al. Learning from crowds. J Mach Learn Res 2010; 11: 1297–322.
Whitehill J, Ruvolo P and Wu T et al. Whose vote should count more: opti- mal integration of labels from labelers of unknown expertise. In Advances in Neural Information Processing Systems 22, Cambridge, MA: MIT Press, 2009; 2035–43.
Raykar VC and Yu S. Eliminating spammers and ranking annotators for crowd- sourced labeling tasks. J Mach Learn Res 2012; 13: 491–518.
Wang W and Zhou ZH. Crowdsourcing label quality: a theoretical analysis. Sci China Inform Sci 2015; 58: 1–12.
Dekel O and Shamir O. Good learners for evil teachers. In 26th International Conference on Machine Learning, Montreal, Canada, 2009; 233–40.
Urner R, Ben-David S and Shamir O. Learning from weak teachers. In 15th International Conference on Arti cial Intelligence and Statistics, La Palma, Canary Islands, 2012; 1252–60.
Wang L and Zhou ZH. Cost-saving effect of crowdsourcing learning. In 25th International Joint Conference on Arti cial Intelligence, New York, NY, 2016; 2111–7.
Karger DR, Sewoong O and Devavrat S. Iterative learning for reliable crowd- sourcing systems. In Advances in Neural Information Processing Systems 24, Cambridge, MA: MIT Press, 2011; 1953–61.
Tran-Thanh L, Venanzi M and Rogers A et al. Ef cient budget allocation with accuracy guarantees for crowdsourcing classi cation tasks. In 12th Interna- tional conference on Autonomous Agents and Multi-Agent Systems, Saint Paul, MN, 2013; 901–8.
Ho CJ, Jabbari S and Vaughan JW. Adaptive task assignment for crowd- sourced classi cation. In 30th International Conference on Machine Learning, Atlanta, GA, 2013; 534–42.
Chen X, Lin Q and Zhou D. Optimistic knowledge gradient policy for opti- mal budget allocation in crowdsourcing. In 30th International Conference on Machine Learning, Atlanta, GA, 2013; 64–72.
Dawid AP and Skene AM. Maximum likelihood estimation of observer error- rates using the EM algorithm. J Roy Stat Soc C Appl Stat 1979; 28: 20– 8
Zhong J, Tang K and Zhou Z-H. Active learning from crowds with unsure op- tion. In 24th International Joint Conference on Arti cial Intelligence, Buenos Aires, Argentina, 2015; 1061–7.
Ding YX and Zhou ZH. Crowdsourcing with unsure opinion. arXiv:1609.00292, 2016.
Shah NB and Zhou D. Double or nothing: multiplicative incentive mechanisms for crowdsourcing. In Advances in Neural Information Processing Systems 28, Cambridge, MA: MIT Press, 2015; 1–9.
Rahmani R and Goldman SA. MISSL: multiple-instance semi-supervised learn- ing. In 23rd International Conference on Machine Learning, Pittsburgh, PA, 2006; 705–12.
Yan Y, Rosales R and Fung G et al. Active learning from crowds. In 28th Inter- national Conference on Machine Learning, Bellevue, WA, 2011; 1161–8.
Sutton RS and Barto AG. Reinforcement Learning: An Introduction. Cambridge: MIT Press, 1998.
Schwenker F and Trentin E. Partially supervised learning for pattern recognition. Pattern Recogn Lett 2014; 37: 1–3.
Garcia-Garcia D and Williamson RC. Degrees of supervision. In Advances in Neural Information Processing Systems 17, Cambridge, MA: MIT Press Work- shops, 2011.
Herna ́ ndez-Gonza ́ lez J, Inza I and Lozano JA. Weak supervision and other non-standard classification problems: a taxonomy. Pattern Recogn Lett 2016; 69: 49–55.
KunchevaLI,Rod ́ıguezJJandJacksonAS.Restrictedsetclassi cation:who is there? Pattern Recogn 2017; 63:158–70.
Zhang M-L and Zhou Z-H. A review on multi-label learning algorithms. IEEE Trans Knowl Data Eng 2014; 26: 1819–37.
Sun YY, Zhang Y and Zhou ZH. Multi-label learning with weak label. In 24th AAAI Conference on Arti cial Intelligence, Atlanta, GA, 2010; 593–8.
Li X and Guo Y. Active learning with multi-label SVM classi cation. In 23rd International Joint Conference on Arti cial Intelligence, Beijing, China, 2013; 1479–85.
Qi GJ, Hua XS and Rui Y et al. Two-dimensional active learning for image classi cation. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Anchorage, AK, 2008.
Huang SJ, Chen S and Zhou ZH. Multi-label active learning: query type matters. In 24th International Joint Conference on Arti cial Intelligence, Buenos Aires, Argentina, 2015; 946–52.

周志華：南京大學計算機軟件新技術國家重點實驗室（National Key Laboratory for Novel Software Technology）教授。NSR專題特邀編輯（Guest Editor of Special Topic of NSR）

科普一下：

《國家科學評論》（National Science Review, NSR）是我國第一份英文版天然科學綜述性學術期刊，定位於全方位、多角度反映中外科學研究的重要成就，深度解讀重大科技事件、重要科技政策，旨在展現世界（尤爲是我國）前沿研究和熱點研究的最新進展和表明性成果，引領學科發展，促進學術交流。NSR的報道範圍涵蓋數理科學、化學科學、生命科學、地球科學、材料科學、信息科學等六大領域。基於科睿惟安發佈的2016年度的期刊引證報告（Journal Citation Reports，JCR），NSR的最新影響因子達到8.843，穩居全球多學科綜合類期刊的第五名（8%，Q1）。NSR發表的全部論文全文能夠在線免費閱讀和下載。