《A Survey on Transfer Learning》遷移學習研究綜述 翻譯

遷移學習研究綜述

Sinno Jialin Pan and Qiang Yang,Fellow, IEEE
摘要:
  在許多機器學習和數據挖掘算法中,一個重要的假設就是目前的訓練數據和未來的訓練數據,必定要在相同的特徵空間而且具備相同的分佈。然而,在許多現實的應用案例中,這個假設可能不會成立。好比,咱們有時候在某個感興趣的領域有個分類任務,可是咱們只有另外一個感興趣領域的足夠訓練數據,而且後者的數據可能處於與以前領域不一樣的特徵空間或者遵循不一樣的數據分佈。這類狀況下,若是知識的遷移作的成功,咱們將會經過避免花費大量昂貴的標記樣本數據的代價,使得學習性能取得顯著的提高。近年來,爲了解決這類問題,遷移學習做爲一個新的學習框架出如今人們面前。這篇綜述主要聚焦於當前遷移學習對於分類、迴歸和聚類問題的梳理和回顧。在這篇綜述中,咱們主要討論了其餘的機器學習算法,好比領域適應、多任務學習、樣本選擇誤差以及協方差轉變等和遷移學習之間的關係。咱們也探索了一些遷移學習在將來的潛在方法的研究。算法

關鍵詞: 遷移學習;綜述;機器學習;數據挖掘編程

1 引言

  數據挖掘和機器學習已經在許多知識工程領域實現了巨大成功,好比分類、迴歸和聚類。然而,許多機器學習方法僅在一個共同的假設的前提下:訓練數據和測試數據必須從同一特種空間中得到,而且須要具備相同的分佈。當分佈狀況改變時,大多數的統計模型須要使用新收集的訓練樣本進行重建。在許多現實的應用中,從新收集所須要的訓練數據來對模型進行重建,是須要花費很大代價或者是不可能的。若是下降從新收集訓練數據的需求和代價,那將是很是不錯的。在這些狀況下,在任務領域之間進行知識的遷移或者遷移學習,將會變得十分有必要。跨域

  許多知識工程領域的例子,都可以從遷移學習中真正獲益。舉一個網頁文件分類的例子。咱們的目的是把給定的網頁文件分類到幾個以前定義的目錄裏。做爲一個例子,在網頁文件分類中,多是根據以前手工標註的樣本,與之關聯的分類信息,而進行分類的大學網頁。對於一個新建網頁的分類任務,其中,數據特徵或數據分佈可能不一樣,所以就出現了已標註訓練樣本的缺失問題。所以,咱們將不能直接把以前在大學網頁上的分類器用到新的網頁中進行分類。在這類狀況下,若是咱們可以把分類知識遷移到新的領域中是很是有幫助的。網絡

  當數據很容易就過期的時候,對於遷移學習的需求將會大大提升。在這種狀況下,一個時期所得到的被標記的數據將不會服從另外一個時期的分佈。例如室內wifi定位問題,它旨在基於以前wifi用戶的數據來查明用戶當前的位置。在大規模的環境中,爲了創建位置模型來校訂wifi數據,代價是很是昂貴的。由於用戶須要在每個位置收集和標記大量的wifi信號數據。然而,wifi的信號強度多是一個時間、設備或者其餘類型的動態因素函數。在一個時間或一臺設備上訓練的模型可能致使另外一個時間或設備上位置估計的性能下降。爲了減小再校訂的代價,咱們可能會把在一個時間段(源域)內創建的位置模型適配到另外一個時間段(目標域),或者把在一臺設備(源域)上訓練的位置模型適配到另外一臺設備(目標域)上。app

  對於第三個例子,關於情感分類的問題。咱們的任務是自動將產品(例如相機品牌)上的評論分類爲正面和負面意見。對於這些分類任務,咱們須要首先收集大量的關於本產品和相關產品的評論。而後咱們須要在與它們相關標記的評論上,訓練分類器。所以,關於不一樣產品牌的評論分佈將會變得十分不同。爲了達到良好的分類效果,咱們須要收集大量的帶標記的數據來對某一產品進行情感分類。然而,標記數據的過程可能會付出昂貴的代價。爲了下降對不一樣的產品進行情感標記的註釋,咱們將會訓練在某一個產品上的情感分類模型,並把它適配到其它產品上去。在這種狀況下,遷移學習將會節省大量的標記成本。框架

  在這篇文章中,咱們給出了在機器學習和數據挖掘領域,遷移學習在分類、迴歸和聚類方面的發展。同時,也有在機器學習方面的文獻中,大量的遷移學習對加強學習的工做。然而,在這篇文章中,咱們更多的關注於在數據挖掘及其相近的領域,關於遷移學習對分類、迴歸和聚類方面的問題。經過這篇綜述,咱們但願對於數據挖掘和機器學習的團體可以提供一些有用的幫助。機器學習

  接下來本文的組織結構以下:在接下來的四個環節,咱們先給出了一個整體的全覽,而且定義了一些接下來用到的標記。而後,咱們簡短歸納一下遷移學習的發展歷程,同時給出遷移學習的統必定義,並將遷移學習分爲三種不一樣的設置(在圖2和表2中給出)。咱們對於每一種設置回顧了不一樣的方法,在表3中給出。以後,在第6節,咱們回顧了一些當前關於「負遷移」這一話題的研究,即那些發生在對知識遷移的過程當中,產生負面影響的時候。在第7節,咱們介紹了遷移學習的一些成功的應用,而且列舉了一些已經發布的關於遷移學習數據集和工具包。最後在結論中,咱們展望了遷移學習的發展前景。函數

2 概述

2.1 有關遷移學習的簡短歷史

  傳統的數據挖掘和機器學習算法經過使用以前收集到的帶標記的數據或者不帶標記的數據進行訓練,進而對未來的數據進行預測。在版監督分類中這樣標註這類問題,即帶標記的樣本太少,以致於只使用大量未標記的樣本數據和少許已標記的樣本數據不能創建良好的分類器。監督學習和半監督學習分別對於缺失數據集的不一樣已經有人進行研究過。例如周和吳研究過如何處理噪音類標記的問題。楊認爲當增長測試時,可使得代價敏感的學習做爲將來的樣本。儘管如此,他們中的大多數假定的前提是帶標記或者是未標記的樣本都是服從相同分佈的。相反,遷移學習容許訓練和測試的域、任務以及分佈是不一樣的。在現實中咱們能夠發現不少遷移學習的例子。例如咱們可能發現,學習如何辨認蘋果將會有助於辨認梨子。相似的,學會彈電子琴將會有助於學習鋼琴。對於遷移學習研究的驅動,是基於事實上,人類能夠智能地把先前學習到的知識應用到新的問題上進而快速或者更好的解決新問題。最初的關於遷移學習的研究是在NIPS-95研討會上,機器學習領域的一個研討話題「學會學習」,就是關注於保留和重用以前學到的知識這種永久的機器學習方法。工具

  自從1995年開始,遷移學習就以不一樣的名字受到了愈來愈多人的關注:學會學習、終生學習、知識遷移、感應遷移、多任務學習、知識整合、先後敏感學習、基於感應閾值的學習、元學習、增量或者累積學習。全部的這些,都十分接近讓遷移學習成爲一個多任務學習的一個框架這樣的學習技術,即便他們是不一樣的,也要儘可能學習多項任務。多任務學習的一個典型的方法是揭示是每一個任務都受益的共同(潛在)特徵。性能

  在2005年,美國國防部高級研究計劃局的信息處理技術辦公室發表的代理公告,給出了遷移學習的新任務:把以前任務中學習到的知識和技能應用到新的任務中的能力。在這個定義中,遷移學習旨在從一個或者多個源任務中提取信息,進而應用到目標任務上。與多任務學習相反,遷移學習不是同時學習源目標和任務目標的內容,而是更多的關注與任務目標。在遷移學習中,源任務和目標任務再也不是對稱的。
在這裏插入圖片描述
Fig. 1. Different Learning Processes between TraditionalMachine Learning and Transfer Learning
  圖1展現了傳統的學習和遷移學習的學習過程之間的不一樣。咱們能夠看到,傳統的機器學習技術致力於從每一個任務中抓取信息,而遷移學習致力於當目標任務缺乏高質量的訓練數據時,從以前任務向目標任務遷移知識。

  現在,遷移學習出如今許多頂級期刊上,使人注意的數據挖掘(好比ACM KDD,IEEE ICDM和PKDD),機器學習(好比ICML,ICDM和PKDD)和應用在數據挖掘和機器學習(好比ACM SIGIR,WWW和ACL)上。在咱們給出遷移學習不一樣的類別的時候,咱們首先描述一下本文中用到的符號。

2.2 符號和定義

  在本節中,咱們介紹了本文中使用的一些符號和定義。首先,咱們分別給出「域」和「任務"的定義。

  在本綜述中,域 \(\mathcal{D}\) 包含兩部分:一個特徵空間 \(\mathcal{X}\)和一個邊緣機率分佈\(P(X)\)。其中 \(X=\{x_1, x_2, ..., x_n\} \in \mathcal{X}\)。好比咱們的學習任務是文本分類,每個術語被用做一個二進制特徵,而後\(\mathcal{X}\)就是全部的術語向量的空間,\(x_i\)是第\(i\)個與一些文本相關的術語向量。X是一個特別的學習樣本。總的來講,若是兩個域不一樣,那麼它們會有不一樣的特徵空間或者服從不一樣的邊緣機率分佈。

  給定一個具體的域,\(\mathcal{D}=\{\mathcal{X}, P(X)\}\),一個任務由兩部分組成:一個標籤空間 \(\mathcal{Y}\)和一個目標預測函數\(f(\cdot)\)(由\(\mathcal{T}=\{\mathcal{Y},f(\cdot)\}\)表示)。任務不可被直觀觀測,可是能夠經過訓練數據學習得來。任務由pair\(\{x_i, y_i\}\)組成,且\(x_i \in X, y_i \in \mathcal{Y}\)。函數\(f(\cdot)\)可用於預測新的例子\(x\)的標籤\(f(x)\)。從機率學角度看,\(f(x)\)也可被寫爲\(P(y|x)\)。 在咱們的文本分類例子裏,\(\mathcal{Y}\)是全部標籤的空間,對二元分類任務來講,就是「真」和「假」,\(y_i\)j就是「真」或「假」。
  簡化起見,本文中咱們只考慮一個源域\(\mathcal{D}_S\)和一個目標域\(\mathcal{D}_T\)。更準確點,用 \(\mathcal{D}_S=\{(x_{S_1}, y_{S_1}), ... , (x_{S_{n_S}}, y_{S_{n_S}})\}\), 其中\(x_{S_i} \in \mathcal{X}_S\)表示數據實例, \(y_{S_i} \in \mathcal{Y}_S\) 是對應的分類標籤。在文檔分類例子中,\(\mathcal{D}_S\)是文檔對象向量及對應的真或假標籤的集合。類似地,目標域記做: \(\mathcal{D}_T=\{(x_{T_1}, y_{T_1}), ... , (x_{T_{n_T}}, y_{T_{n_T}})\}\), 其中輸入\(x_{T_i} \in \mathcal{X}_S\)\(y_{T_i} \in \mathcal{Y}_T\)是對應的輸出。多數狀況下源域觀測樣本數目\(n_S\)與目標域觀測樣本數目\(n_T\)之間有以下關係:\(0≤n_T\ll n_S\)
  如今咱們給出遷移學習的統必定義:
Definition 1 (Transfer learning): 給定源域\(\mathcal{D}_S\)和學習任務\(\mathcal{T}_S\),一個目標域\(\mathcal{D}_T\)和學習任務\(\mathcal{T}_T\),遷移學習致力於用\(\mathcal{D}_S\)\(\mathcal{T}_S\)中的知識,幫助提升\(\mathcal{D}_T\)中目標預測函數\(f_T(\cdot)\)的學習。而且有\(\mathcal{D}_S\)\(\mathcal{D}_T\)\(\mathcal{T}_S\)\(\mathcal{T}_T\)

在上面定義中,\(\mathcal{D}=\{\mathcal{X},P(X)\}\),條件\(\mathcal{D}_S\)\(\mathcal{D}_T\)意味着源域和目標域實例不一樣\(\mathcal{X}_S\)\(\mathcal{X}_T\)或者源域和目標域邊緣機率分佈不一樣\(P_S(X)\)\(P_T(X)\)。同理\(\mathcal{T}=\{\mathcal{Y},P(Y|X)\}\)\(\mathcal{T}_S\)\(\mathcal{T}_T\)意味着源域和目標域標籤不一樣(\(\mathcal{Y}_S\)\(\mathcal{Y}_T\))或者源域和目標域條件機率分佈不一樣(\(P(Y_S|X_S)\)\(P(Y_T|X_T)\))。當源域和目標域相同\(\mathcal{D}_S\)=\(\mathcal{D}_T\)且源任務和目標任務相同\(\mathcal{T}_S\)=\(\mathcal{T}_T\),則學習問題變成一個傳統機器學習問題。

以文檔分類爲例,域不一樣有如下兩種狀況:

  1. 特徵空間不一樣,即\(\mathcal{X}_S\)\(\mathcal{X}_T\)。多是文檔的語言不一樣。
  2. 特徵空間相同但邊緣分佈不一樣,即\(P(X_S)\)\(P(X_T)\),其中\(X_{S_i}\in\mathcal{X}_S\)\(X_{T_i}\in\mathcal{X}_T\)。多是文檔主題不一樣。

給定域\(\mathcal{D}_S\)\(\mathcal{D}_T\),學習任務不一樣可能有如下兩種狀況:

  1. 域間標籤空間不一樣,即\(\mathcal{Y}_S\)\(\mathcal{Y}_T\)。多是源域中文檔須要分兩類,目標域須要分十類。
  2. 域間條件機率分佈不一樣,即\(P(Y_S|X_S)\)\(P(Y_T|X_T)\)
    除此以外,當兩個域或者特徵空間之間不管顯式或隱式地存在某種關係時,咱們說源域和目標域相關。

2.3遷移學習分類

遷移學習主要有如下三個研究問題:1)遷移什麼,2)如何遷移,3)什麼時候遷移。
「遷移什麼」提出了遷移哪部分知識的問題。 一些知識對單獨的域或任務有用,一些知識對不一樣的領域是通用的,能夠用來提升目標域或目標任務的性能。
「什麼時候遷移」提出了哪一種狀況下運用遷移學習。當源域和目標域無關時,強行遷移可能並不會提升目標域上算法的性能,甚至會損害性能。這種狀況稱爲負遷移。當前大部分關於遷移學習的工做關注於「遷移什麼」和「如何遷移」,隱含着一個假設:源域和目標域彼此相關。然而,如何避免負遷移是一個很重要的問題。
基於遷移學習的定義,咱們概括了傳統機器學習方法和遷移學習的異同見下表。
在這裏插入圖片描述

  1. 推導遷移學習(inductive transfer learning)(也叫概括遷移學習1
    目標任務和源任務不一樣,不管目標域與源域是否相同。
    這種狀況下,要用目標域中的一些已標註數據生成一個客觀預測模型\(f(\cdot)\)以應用到目標域中。除此以外,根據源域中已標註和未標註數據的不一樣狀況,能夠進一步將inductive transfer learning分爲兩種狀況:
  • 源域中大量已標註數據可用。這種狀況下推導遷移學習和多任務學習相似。然而,推導遷移學習只關注於經過從源任務中遷移知識以便在目標任務中得到更高性能,然而多任務學習嘗試同時學習源任務和目標任務。
  • 源域中無已標註數據可用。這種狀況下推導遷移學習和自我學習類似。自我學習中,源域和目標域間的標籤空間可能不一樣,這意味着源域中的邊緣信息不能直接使用。所以當源域中無已標註數據可用時這兩種學習方法類似。
  1. 轉導遷移學習(transductive transfer learning)(又叫直推式遷移學習)
    源任務和目標任務相同,源域和目標域不一樣。這種狀況下,目標域中無已標註數據可用,源域中有大量已標註數據可用。除此以外,根據源域和目標域中的不一樣情況,能夠進一步將轉導遷移學習分爲兩類:
  • 源域和目標域中的特徵空間不一樣,即\(\mathcal{X}_S\)\(\mathcal{X}_T\)
  • 源域和目標域間的特徵空間相同,\(\mathcal{X}_S\)=\(\mathcal{X}_T\),但輸入數據的邊緣機率分佈不一樣,即\(P(X_S)\)\(P(X_T)\).
    轉導遷移學習中的後一種狀況與自適應學習相關,由於文本分類、樣本選擇誤差和協方差移位中的知識遷移都有類似的假設。
  1. 無監督遷移學習(unsupervised transfer learning)
    與推導遷移學習類似,目標任務與源任務不一樣但相關。然而,無監督遷移學習專一於解決目標域中的無監督學習問題,如聚類、降維、密度估計。這種狀況下,訓練中源域和目標域都無已標註數據可用。
    遷移學習中不一樣分類的聯繫及相關領域被總結在Table2和Fig2中。
    在這裏插入圖片描述

Fig.2.An Overview of Different Settings of Transfer
Fig. 2. An Overview of Different Settings of Transfer
  上述三種遷移學習能夠基於「遷移什麼」被分爲四種狀況,如Table3所示。Table3中展現了四種狀況和簡短的描述。

在這裏插入圖片描述
第一種能夠被稱爲基於實例的遷移學習,源域中的數據的某一部分能夠經過權重調整的方法重用,用於目標域的學習。實例權重調整和重要性採樣是這種方法的兩種主要技術。
第二種能夠被稱爲基於特徵表示的遷移學習,這種狀況的直觀想法是爲目標域訓練一個「好」的特徵表示。在這種狀況下,用於跨域傳輸的知識被編碼爲學習的特徵表示形式。使用新功能表示形式,目標任務的性能有望顯著提升。第三種狀況可稱爲基於參數的遷移學習方法。這種方法假設假定源任務和目標任務共享模型的超參數的某些參數或先前的超參數分佈。最後一種方法可稱做關係知識遷移學習(Transferring Relational Knowledge
)問題,它處理的是有聯繫的域。其基本假設是源域和目標域中某些數據之間關係是類似的。因此要遷移的是數據間的關係。最近,統計關係學習技術主導了這一領域。
表4展現了不一樣遷移學習分類中不一樣方法的使用狀況。咱們能夠看到,許多研究工做研究了推導遷移學習而無監督遷移學習是一個至關新的研究話題,並且在上下文中只使用基於特徵表示的遷移學習方法對其進行了研究。並且基於特徵表示的遷移學習問題在三類遷移學習中都被說起。然而,基於參數的遷移學習和關係知識遷移學習方只在推導遷移學習中研究過,咱們將在下面詳細討論推導遷移學習。
在這裏插入圖片描述

3.推導遷移學習

定義:給出一個源域\(\mathcal{D}_S\)和源任務\(\mathcal{T}_S\),目標域\(\mathcal{D}_T\)目標任務\(\mathcal{T}_T\) ,推導遷移學習的目標是在\(\mathcal{T}_S\)\(\mathcal{T}_T\)的狀況下,利用\(\mathcal{D}_S\)\(\mathcal{T}_S\)的知識,幫助提高\(\mathcal{D}_T\) 中的目標預測函數 \(f_T(\cdot)\)
基於以上的推導遷移學習的定義,用目標域中一小部分已標註數據做爲訓練數據以誘導(induce)目標預測函數是有必要的。在2.3部分提到,這種分類包含兩種狀況:(1)源域中標註數據可獲得;(2)源域中已標註數據不可得,未標註數據可得。這一分類下大多數遷移學習方法聚焦在前一種狀況。

3.1遷移實例知識

推導遷移學習中基於實例的遷移學習方法直觀上頗有吸引力:儘管源域數據不能直接重用,但仍是有一部分特定數據能夠和目標域中的一些已標註數據實現重用。
Dai等人爲解決推導遷移學習問題提出了一個加強算法TrAdaBoost,它是AdaBoost算法的一個擴展,TrAdaBoost算法假設源域和目標域數據使用相同的特徵集和標籤集,但兩個域中的數據分佈不一樣。除此以外,由於源域和目標域的分佈不一樣,所以TrAdaBoost進一步假設源域中的部分數據對目標域的學習有用,另外一部分數據沒用甚至有害。它嘗試對源域數據迭代式地重加權以減輕壞的源域數據對目標域的影響,加強好數據的增益。迭代的每一輪,TrAdaBoost在加權過的源數據和目標數據上訓練基本分類器。只在目標數據上計算錯誤。TrAdaBoost在更新目標域上的錯誤分類樣例上和AdaBoost使用相同策略,在更新源域上的錯誤分類源樣例上和AdaBoost使用不一樣策略。TrAdaBoost的具體理論分析見[6]。 Jiang and Zhai
30]提出了一種基於不一樣條件機率\(P\left(y_{T} | x_{T}\right)\),和\(P\left(y_{S} | x_{S}\right)\)的從源域中移除誤導性訓練樣例的啓發式方法。liao等人[31]提出了一種新的主動學習方法,藉助源域數據進行標記來選擇目標域中的未標記數據。Wu and Dietterich [53]集成源域(輔助)數據支持向量機 (SVM) 框架,以提升分類性能。

3.2轉移特徵表示的知識

推導遷移學習的基於特徵表示的遷移方法致力於找到好的特徵表示去最小化域差別以及分類和迴歸模型偏差。不一樣類型的源數據有找好特徵表示的不一樣策略。若是源域中大量已標註數據可用,有監督方式能夠被用於構建特徵表示。這有點像多任務學習中的共性特徵學習。若是源域中沒有已標註數據可用,就要使用無監督方式去構建特徵表示。

3.2.1 有監督特徵構建

推導遷移學習中的有監督特徵構建與多任務學習中使用的方法相似。基本想法是去構建一個能夠跨相關任務的低維表示,並且學習到的新表示也能夠用於減少每一個任務的分類或迴歸偏差。Argyriou et al. [40]提出了一種針對多任務學習的稀疏特徵學習方法。在推導遷移學習中,能夠經過一個優化問題來學習公共特徵,見下式:

\[\underset{A, U}{\arg \min } \sum_{t \in\{T, S\}} \sum_{i=1}^{n_{t}} L\left(y_{t_{i}},\left\langle a_{t}, U^{T} x_{t_{i}}\right\rangle\right)+\gamma\|A\|_{2,1}^{2}\\ \ s.t.\quad U \in \mathbf{O}^{d}\tag{1} \]

\(S\)\(T\)表示源域和目標域中的任務,\(A=[a_S,a_T]∈R^{d×2}\)是參數矩陣。\(U\)是一個\(d×d\)的正交矩陣(映射函數)用於將高維數據映射成爲低維表示。A的\((r,p)\)範數爲\(\|A\|_{r, p} :=\left(\sum_{i=1}^{d}\left\|a^{i}\right\|_{r}^{p}\right)^{\frac{1}{p}}\)。上式表達的優化問題同時估計了低維表示\(U^TX_T, U^TX_S\)和模型的參數\(A\),上式也可被等效轉化爲凸優化函數並被高效地解決。 後續工做中,Argyriou et al. [41]提出了一種用於多任務結構學習的光譜正則化框架。
Lee等人[42]提出了一個凸優化算法,用於同時從一系列相關的預測任務中學習元序(metapriors)和特徵權重。元序(metapriors)能夠在不一樣的任務之間遷移。Jebara [43] 建議使用 SVM 選擇特徵進行多任務學習。Ru¨ ckert and Kramer [54]爲推導遷移學習設計了一種基於內核的方法,旨在爲目標數據找到合適的內核。

3.2.2 無監督特徵構建

[22]提出以應用稀疏編碼,它是一種無監督特徵構建方法,在遷移學習中學習高維特徵。這種想法基本由兩部構成:第一步,經過在源域數據上求解(2)式獲得更高層的偏置向量\(b=\{b1,b2,...,bS\}\)

\[\min _{a, b} \sum_{i}\left\|x_{S_{i}}-\sum_{j} a_{S_{i}}^{j} b_{j}\right\|_{2}^{2}+\beta\left\|a_{S_{i}}\right\|_{1}\\ s.t.\quad\left\|b_{j}\right\|_{2} \leq 1, \quad \forall j \in 1, \ldots, s \tag{2}\]

在這一等式中\(a_{S_{i}}^{j}\)是一種新的基礎表示形式,輸入\(x_{S_{i}}\)\(\beta\)是平衡特徵構造項的係數和正則化項係數,獲得偏置向量b以後,第二步在目標域數據上應用(3)式以學習基於偏置向量b的更高維特徵

\[a_{T_{i}}^{*}=\underset{a_{T_{i}}}{\arg \min }\left\|x_{T_{i}}-\sum_{j} a_{T_{i}}^{j} b_{j}\right\|_{2}^{2}+\beta\left\|a_{T_{i}}\right\|_{1}. \tag{3} \]

最後,能夠將鑑別算法應用於\(\{a_{T_{i}}^{*}\}'s\),並帶有相應的標籤,以用於目標域訓練分類或迴歸模型。此方法的一個缺點是,在優化問題 (2) 中在源域上學習的所謂較高級別基礎向量可能不適合在目標域中使用。
最近,多種學習方法被改編成轉移學習。在[44]中,Wang和Mahadevan提出了一種基於普魯克分析的方法,用於無對應的歧管對齊,該方法可用於經過對齊歧管跨領域遷移知識。

3.3 Transferring Knowledge of Parameters

大多數推導遷移學習的基於參數的遷移方法都假設相關任務的不一樣模型之間共享一些參數或更高層的超參數分佈。這部分描述的大多數方法包括一個規則化框架一個多層貝葉斯框架,都被設計在多任務學習下工做。然而,它們能夠很容易地爲遷移學習修改。就像以前提到的,多任務學習試圖同時完美地學習源任務和目標任務,而遷移學習只想利用源域數據提高目標域數據下的性能。所以,多任務學習中對源域和目標域數據的損失函數的權重都同樣,而對遷移學習這二者的權重則不一樣。直觀地,咱們能夠對目標域上的損失函數賦予更高的權重以確保目標域上的效果更好。
Lawrence and Platt[45]提出了一個高效的算法叫MT-IVM,基於高斯過程,以處理多任務學習的狀況。MT-IVM試圖經過共享相同高斯過程先驗參數以在多任務狀況下學習高斯過程的參數。Bonilla et al.[46]也在高斯過程狀況下調研了多任務學習。做者建議對任務使用自由形式的協方差矩陣來建模任務間依賴關係,其中 高斯過程先驗(GP prior)被用於概括出任務之間的相關性。
除了遷移高斯過程模型的先驗信息,一些研究也提出了遷移
正則化框架下SVMs模型的參數。Evgeniou and Pontil[48]在研究多任務學習中SVMs方法借用了HB算法的想法。提出的方法假設對每一個任務中SVMs的參數\(w\)能夠被分紅兩個術語。一個是對任務的通用術語,一個是對特殊任務的術語。在推導遷移學習中,

\[w_S=w_0+v_S ,w_T=w_0+v_T \]

其中,\(w_S\)\(w_T\)分別是源任務和目標學習任務的SVMs算法的參數。\(w_0\)是一個通用參數,\(v_S和v_T\)分別是源任務和目標任務的特殊參數。經過假設\(f_t=w_t\cdot x\)是任務\(t\)的超平面,SVM算法的一個多任務學習方面的擴展可寫成以下形式:

\[\begin{array}{l} \underset{w_{0}, v_{t}, \xi_{t_{i}}}{min} J\left(w_{0}, v_{t}, \xi_{t_{i}}\right)\\ =\sum_{t \in\{S, T\}} \sum_{i=1}^{n_{t}} \xi_{t_{i}}+\frac{\lambda_{1}}{2} \sum_{t \in\{S, T\}}\left\|v_{t}\right\|^{2}+\lambda_{2}\left\|w_{0}\right\|^{2}\\ s.t.\quad y_{t_{i}}\left(w_{0}+v_{t}\right) \cdot x_{t_{i}} \geq 1-\xi_{t_{i}}\\ \xi_{t_{i}} \geq 0, i \in\left\{1,2, \ldots, n_{t}\right\} \text { and } t \in\{S, T\}\tag{4} \end{array} \]

經過解決上面的優化問題,咱們能夠同時學習到參數\(w_0,v_S和v_T\)。Gao et al. [49]提出了一個本地加權集合學習框架,以組合多個用於遷移學習的模型,其中權重根據模型在目標域中每一個測試示例上的預測能力動態分配。

3.4 關係知識遷移學習

不一樣於以上三種方法,關係知識遷移學習方法在關係域中處理遷移學習問題,其數據分佈不一樣且能夠被多種關係表示,例如網絡關係和社會網絡關係。此方法並不假定從每一個域中提取的數據是獨立且與傳統上假定的分佈相同。它嘗試着把數據聯繫從源域遷移到目標域,在此背景下,提出了統計關係學習技術來解決這些問題。
Mihalkova等人提出了一種算法TAMAR,該算法將關係知識經過馬爾科夫邏輯網絡(MLNs)跨關係域遷移。MLNs [56] 是一種強大的形式體系,它結合了一階邏輯的簡潔表現力和機率的靈活性,用於統計關係學習。在 MLNs 中,關係域中的實體由謂詞表示,其關係以一階邏輯表示。TAMAR 的動機是,若是兩個域彼此相關,則可能存在映射,將實體及其關係從源域鏈接到目標域。例如,教授在學術領域扮演的角色,在工業管理領域擔任管理者所扮演的角色類似。此外,教授與學生之間的關係與管理者與員工之間的關係類似。所以,可能存在從教授到經理的映射,以及從教授-學生關係到經理-工人關係的映射。在此方面,TAMAR 嘗試使用源域學習的 MLN 來幫助學習目標域的 MLN。基本上,TAMAR 是一個兩階段算法。在第一步中,基於加權僞日誌可能性度量 (WPLL) 從源 MLN 構造到目標域的映射。在第二步中,經過FORTE算法[57]對目標域中的映射結構進行修訂,該算法是一種用於修正一階理論的概括邏輯編程(ILP)算法。修訂後的 MLN 可用做目標域中推理或緣由的關係模型。
在AAAI-2008複雜任務轉移學習研討會上,Mihalkova and Mooney[51]擴展TAMAR到以單實體爲中心的遷移學習,其中目標域中只有一個實體可用。Davis and Domingos[52]提出了一種基於二階馬爾科夫邏輯轉移關係知識的方法。該算法的基本思想是,經過實例化這些公式與目標域中的謂詞,以帶有謂詞變量的馬爾科夫邏輯公式的形式發現源域中的結構規律。

4 轉導遷移學習

轉導遷移學習話題的是Arnold et al. [58]提出的,他們要求源任務和目標任務相同,儘管域可能不一樣。除了這些條件以外,他們進一步要求目標域中的全部未標記數據在訓練時均可用,但咱們相信這種狀況能夠放寬;相反,在咱們定義轉導遷移學習時,咱們僅要求在訓練時查看部分未標記的目標數據,以便得到目標數據的邊際機率。
請注意,"轉導"一詞具備多種含義。在傳統的機器學習環境中,轉導式學習 [59] 是指在訓練時須要查看全部測試數據,而且所學模型不能用於未來數據的狀況。所以,當一些新的測試數據到達時,它們必須與全部現有數據一塊兒分類。相反,在轉移學習的分類中,咱們使用"轉導"一詞來強調這樣一個概念,即在這種類型的轉移學習中,任務必須相同,而且目標域中必須有一些未標記的數據。

轉導遷移學習定義:

給定源域\(\mathcal{D}_S\)和相應的學習任務\(\mathcal{T}_S\)、目標域 \(\mathcal{D}_T\)和相應的學習任務 \(\mathcal{T}_T\),轉導遷移學習旨在利用 \(\mathcal{D}_S\)\(\mathcal{T}_S\)中的知識,改進目標預測函數\(f_T(\cdot)\)的學習,其中 \(\mathcal{D}_S\)\(\mathcal{D}_T\)\(\mathcal{T}_S\)=\(\mathcal{T}_T\)。此外,某些未標記的目標域數據必須在訓練時可用。

  這必定義涵蓋Arnold等人的工做[58],由於後者考慮了領域適應,其中來源數據和目標數據的邊際機率分佈之間存在差別;即任務相同,但域不一樣。
  與傳統轉導式學習設置相似,後者旨在充分利用未標記的測試數據進行學習,在轉換傳輸學習下的分類方案中,咱們還假定給出了一些目標域未標記的數據。在上述轉導傳輸學習定義中,源任務和目標任務相同,這意味着能夠經過一些未標記的目標域數據,將源域中學習的預測函數調整到目標域中。如第 2.3 節所述,此分類能夠拆分爲兩種狀況:(1)源域和目標域特徵空間不一樣,\(\mathcal{X}_S\)\(\mathcal{X}_T\)(2)源域和目標域特徵空間相同,\(\mathcal{X}_S\)=\(\mathcal{X}_T\)可是輸入數據的邊際機率分佈不一樣,\(P(X_S)\)\(P(X_T)\).這和自適應學習和樣本選擇誤差的要求相似。接下來描述的方法都和上面的第二種狀況有關。

4.1遷移實例的知識

大多數轉導遷移學習的實例遷移方法都受到重要性採樣的激勵。爲了瞭解基於重要性採樣的方法在此環境中如何提供幫助,咱們首先回顧了經驗風險最小化問題(ERM)[60]。通常來講,咱們可能想要經驗最小化風險來學習模型最優參數\(\theta^{*}\)

\[\theta^{*}=\underset{\theta \in \Theta}{\arg \min } \mathbb{E}_{(x, y) \in P}[l(x, y, \theta)] \]

其中\(l(x, y, \theta)\)是依賴於參數的損耗函數。可是,因爲很難估計機率分佈 P,咱們選擇最小化 ERM,

\[\theta^{*}=\underset{\theta \in \Theta}{\arg \min } \frac{1}{n} \sum_{i=1}^{n}\left[l\left(x_{i}, y_{i}, \theta\right)\right] \]

其中,n是訓練數據的size(尺寸)。
在在轉導遷移學習中,咱們但願經過經驗風險最小化來學習目標域的最佳模型,

\[\theta^{*}=\underset{\theta \in \Theta}{\arg \min } \sum_{(x, y) \in D_{T}} P\left(D_{T}\right) l(x, y, \theta) \]

可是,因爲在訓練數據中未觀察到目標域中標記數據,所以咱們必須從源域數據中學習模型。若是\(P(D_S)=P(D_T)\),那麼咱們只需經過解決如下優化問題來了解模型,以便用於目標域,

\[\theta^{*}=\underset{\theta \in \Theta}{\arg \min } \sum_{(x, y) \in D_{S}} P\left(D_{S}\right) l(x, y, \theta) \]

\(P(D_S)\)\(P(D_T)\)時,咱們須要調整優化問題,以期爲目標域學習一個具備較高歸納能力的模型,以下:

\[\begin{aligned} \theta^{*}=\underset{\theta \in \Theta}{\arg \min } \sum_{(x, y) \in D_{S}} \frac{P\left(D_{T}\right)}{P\left(D_{S}\right)} P\left(D_{S}\right) l(x, y, \theta)\\ \approx \underset{\theta \in \Theta}{\arg \min } \sum_{i=1}^{n_{S}} \frac{P_{T}\left(x_{T_{i}}, y_{T_{i}}\right)}{P_{S}\left(x_{S_{i}}, y_{S_{i}}\right)} l\left(x_{S_{i}}, y_{S_{i}}, \theta\right). \end{aligned}\tag{5} \]

所以,經過相應的權重\(\frac{P_{T}\left(x_{T_{i}}, y_{T_{i}}\right)}{P_{S}\left(x_{S_{i}}, y_{S_{i}}\right)}\)爲每一個實例添加不一樣的懲罰值\((x_{S_{i}},y_{S_{i}},)\),咱們可使用相應的權重來學習目標域的精確模型。並且,由於\(P\left(Y_{T} | X_{T}\right)=P\left(Y_{S} | X_{S}\right)\),因此\(P(D_S)\)\(P(D_T)\)的不一樣主要又\(P(X_S)\)\(P(X_T)\)形成,且

\[\frac{P_{T}\left(x_{T_{i}}, y_{T_{i}}\right)}{P_{S}\left(x_{S_{i}}, y_{S_{i}}\right)}=\frac{P\left(x_{S_{i}}\right)}{P\left(x_{T_{i}}\right)} \]

若是咱們能夠爲每一個實例預測\(\frac{P\left(x_{S_{i}}\right)}{P\left(x_{T_{i}}\right)}\),咱們就能夠解決轉導遷移學習問題。
有多種預測 \(\frac{P\left(x_{S_{i}}\right)}{P\left(x_{T_{i}}\right)}\)的方法。Zadrozny [24]提出構建簡單的分類問題來估計\(P\left(x_{S_{i}}\right)\)\(P\left(x_{T_{i}}\right)\)。Fan等人[35]使用各類分類器對問題進行了進一步分析,估計了機率比。Huang等人[32]提出了一種內核均值匹配(KMM)算法,經過匹配在複製內核Hilbert空間(RKHS)中學習源域數據和目標域數據的方法算法來直接學習\(\frac{P\left(x_{S_{i}}\right)}{P\left(x_{T_{i}}\right)}\)。KMM 能夠重寫爲如下二次編程 (QP) 優化問題。

\[\begin{array} {ll}{\min _{\beta}} & {\frac{1}{2} \beta^{T} K \beta-\kappa^{T} \beta} \\ {\text {s.t.}} & {\beta_{i} \in[0, B] \text { and }\left|\sum_{i=1}^{n_{S}} \beta_{i}-n_{S}\right| \leq n_{S} \epsilon}\tag{6} \end{array} \]

其中$$
K=\left[\begin{array}{ll}{K_{S, S}} & {K_{S, T}} \ {K_{T, S}} & {K_{T, T}}\end{array}\right]

\[$K_{i j}=k\left(x_{i}, x_{j}\right)$$K_{S, S}$ 和 $K_{T, T}$是源域和目標域數據的核矩陣。$\kappa_{i}=\frac{n_{S}}{n_{T}} \sum_{j=1}^{n_{T}} k\left(x_{i}, x_{T_{j}}\right)$其中,$x_{i} \in X_{S} \cup X_{T}$$x_{T_{j}} \in X_{T}$。 可證實:$\beta_{i}=\frac{P\left(x_{S_{i}}\right)}{P\left(x_{T_{i}}\right)}$[32]。使用KMM的優勢在於避免計算$P(x_{S_{i}})$或$P(x_{T_{i}})$的密度估計,當數據集小的時候很難計算。Sugiyama等人[34]提出了一種稱爲"庫爾貝克-萊布勒重要性估計步驟(KLIEP)"的算法,以在最小化Kullback-Lebler不一樣的基礎上直接估計$\frac{P\left(x_{S_{i}}\right)}{P\left(x_{T_{i}}\right)}$。能夠集成交叉驗證,經過兩個步驟自動執行模型選擇:1) 估計源域數據的權重,2) 在重加權數據上訓練模型。Bickel等人[33]經過派生一個內核邏輯迴歸分類器,將兩個步驟合併爲一個統一的框架。有關協變量移位或樣本選擇誤差的重要性採樣和重量化方法的更多信息,讀者能夠參考 Quionero-Candela 等人最近出版的一本書 [29]。也能夠參考ICDM-08中fan和Sugiyama的樣本選擇誤差教程。 ## 4.2遷移特徵表示的知識 轉導遷移學習的大多數特徵表示遷移方法都在無監督的學習框架之下。Blitzer等人[38]提出了一種結構對應學習(SCL)算法,該算法擴展了[37],利用目標域中的未標記數據提取一些相關特徵,這些特徵能夠縮小域之間的差別。SCL算法的第一步是在兩個域的無標註數據中定義一組樞軸特徵(數軸的特徵數量由$m$表示)。而後SCL 從數據中刪除這些樞軸特徵,並將每一個樞軸要素視爲新的標註矢量。能夠構造 m 分類問題。假設每一個分類能夠經過線性分類器解決,線性分類器以下: \]

f_{l}(x)=\operatorname{sgn}\left(w_{l}^{T} \cdot x\right), l=1, \ldots, m

\[SCL可以學到一個參數矩陣$W=\left[w_{1} w_{2} \dots w_{m}\right]$。第三步,奇異值分解 (SVD) 應用於矩陣$W=\left[w_{1} w_{2} \dots w_{m}\right]$ 使得$W=U D V^{T},$ 因而,$\theta=U_{[1 ! h ;]}^{T}$是矩陣(線性映射),其行是 W 的左上單數矢量。$h$是共享特徵的數量。最後,標準判別算法能夠應用於加強特徵向量來構建模型。加強特徵矢量包含全部原始要素$x_i$,並附加了新的共享要素$\theta x_i$。如 [38] 中所述,若是樞軸特徵設計的好,則學習的映射將編碼不一樣域中的要素之間的對應關係。雖然Ben-David 等人[61]實驗代表,SCL能夠減小域之間的差別;如何選擇樞軸特徵是困難的,而且依賴於域。在[38]中,Blitzer等人使用啓發式方法爲天然語言處理(NLP)問題選擇樞軸特徵,例如句子標記。在後續研究中,研究人員建議使用相互信息 (MI) 來選擇樞軸特徵,而不是使用更多啓發式標準 [8]。MI-SCL 嘗試尋找一些高度依賴源域中標籤的樞軸特徵。 NLP 領域中的遷移學習有時稱爲域適應。在此領域,Daume [39] 提出了針對 NLP 問題的內核映射函數,該函數將數據從源域和目標域映射到高維特徵空間,其中使用標準鑑別性學習方法來訓練分類器。可是,構建的內核映射函數是域知識驅動的。將內核映射歸納爲其餘領域或應用程序並不容易。Blitzer 等人 [62] 分析了算法的統一收斂邊界,這些算法將源和目標經驗風險的凸組合降至最低。在[36]中,Dai等人提出了一種基於共聚類的算法,用於在不一樣的域中傳播標籤信息。在[63]中,Xing等人提出了一種稱爲橋接細化(bridged refinement)的新算法,以糾正由轉移不感知分類器預測的標籤,並將訓練和測試數據的混合分佈做爲橋樑,以更好地從將數據訓練到測試數據。在[64]中,Ling等人提出了跨域遷移學習問題的光譜分類框架,其中引入了目標函數,以尋求域內監督與域外內在結構的一致性。在[65]中,薛等人提出了一種跨域文本分類算法,將傳統的機率潛在語義分析(PLSA)算法擴展爲將不一樣但相關領域的標記和未標記數據集成到一個統一的機率模型。新模型稱爲主題橋式 PLSA 或 TPLSA。 潘等人最近提出經過維數減小遷移學習[66]在這項工做中,Pan等人利用了最初爲減少維數而設計的最大平均差別嵌入(MMDE)方法,學習低維空間,以減小不一樣域之間的分佈差別,以實現轉導遷移學習。可是,MMDE 可能會承受計算負擔。所以,在[67]中,Pan等人進一步提出了一種有效的特徵提取算法,稱爲轉移份量分析(TCA),以克服MMDE的缺點。 # 5無監督式遷移學習 定義4(無監督遷移學習):給定一個源域$\mathcal{D}_S$和學習任務 $\mathcal{T}_S$目標域$\mathcal{D}_T$和對應的學習任務$\mathcal{T}_T$無監督遷移學習的目標是使用$\mathcal{D}_S$和目標域$\mathcal{T}_S$的知識,幫助提高目標域中目標預測函數$f_{T}(\cdot)$。其$\mathcal{T}_{S}$≠ $\mathcal{T}_{T}$並且$\mathcal{Y}_S$和$\mathcal{Y}_T$是未標註的。 根據無監督傳輸學習設置的定義,在培訓中的源域和目標域中未觀察到標記數據。到目前爲止,關於此設置的研究工做不多。最近,分別提出了自學聚類(STC)[26]和遷移判性分析(TDA)[27]算法來遷移聚類和遷移減小維度數問題。 ## 5.1 基於特徵表示遷移知識 Dai等人(26)研究了一個新的聚類問題案例,稱爲自學聚類(STC)。自學聚類是無監督傳輸學習的實例,它旨在經過源域中的大量未標記數據在目標域中集中少許未標記數據。STC 嘗試學習跨域的通用要素空間,這有助於在目標域中進行羣集。STC 的目標功能以下所示: $$\begin{aligned} &J\left(\tilde{X}_{T}, \tilde{X}_{S}, \tilde{Z}\right)\\ &\quad=I\left(X_{T}, Z\right)-I\left(\tilde{X}_{T}, \tilde{Z}\right)+\lambda\left[I\left(X_{S}, Z\right)-I\left(\tilde{X}_{S}, \tilde{Z}\right)\right] \end{aligned}\tag{7} \]

其中,\(X_S\)\(X_T\)是源域和目標域數據。\(Z\)\(X_S\)\(X_T\)的標準共享特徵空間,\(I(\cdot, \cdot)\)是兩個隨機變量的共同信息。假設存在三個聚類函數,\(C_{X_{I}} : X_{T} \rightarrow \tilde{X}_{T}, C_{X_{s}} : X_{S} \rightarrow \tilde{X}_{S},\) and \(C_{Z} : Z \rightarrow \tilde{Z}\)。其中
\(\tilde{X}_{T},\tilde{X}_{S}和\tilde{Z}\)對應$X_T,X_S和Z的對應聚類。STC的目標是經過解決最優化問題(7)來學習 \(\tilde{X}_{T}\)

\[\underset{\tilde{X}_{T}, \vec{X}_{S}, \tilde{Z}}{\arg \min } J\left(\tilde{X}_{T}, \tilde{X}_{S}, \tilde{Z}\right)\tag{8} \]

在 [26] 中給出了一種用於求解優化函數 (8) 的迭代算法。
一樣,Wang等人提出了一種TDA算法來解決遷移維數減小問題。TDA 首先應用聚類方法爲目標未標記的數據生成僞類標籤。而後,它將尺寸減小方法應用於目標數據和有標記的源數據以減小維度。這兩個步驟以迭代方式運行,以查找目標數據的最佳子空間。

6遷移邊界和負遷移

一個重要的問題是認識到遷移學習的能力的極限。在[68]中,Mahmud和Ray分析了使用柯爾莫戈羅夫複雜性(柯氏複雜度)(kolmogorov complexity)進行遷移學習的案例,其中證實了一些理論界限。特別是,做者使用有條件的柯爾莫戈羅夫複雜性來衡量任務之間的關聯度,並在貝葉斯框架下的連續遷移學習任務中傳輸"正確的"信息量。
最近,伊頓等人提出了一種新的基於圖形的知識轉移方法,其中源任務之間的關係是經過將學習源模型集嵌入到圖形中,使用可轉移性做爲度量指標來建模的。經過將問題映射到圖形,而後學習此圖上的函數,該函數自動肯定要傳輸到新學習任務的參數,從而繼續遷移到新任務。
  當源域數據和任務致使目標域中學習性能下降時,就會發生負遷移。儘管如何避免負面轉移是一個很是重要的問題,但關於這個主題的研究工做不多。Rosenstein等人[70]的經驗代表,若是兩個任務太不一樣,那麼暴力轉移可能會損害目標任務的性能。一些做品已被利用來分析任務和任務聚類技術之間的關聯性,例如 [71]、[72],這可能有助於就如何自動避免負轉移提供指導。Bakker 和 Heskes [72] 採用了貝葉斯方法,其中一些模型參數對全部任務共享,而其餘模型參數經過從數據中學習的聯合先前分發更鬆散地鏈接。所以,數據基於任務參數進行聚類,其中同一羣集中的任務應該彼此相關。Argyriou等人[73]考慮了學習任務能夠分爲幾組的狀況。每一個組內的任務經過共享低維表示來相關,該表示在不一樣的組之間有所不一樣。所以,團隊中的任務能夠發現更容易遷移有用的知識。

7遷移學習的應用

最近,傳輸學習技術已成功應用於許多實際應用。Raina等人[74]和Dai等人[36],[28]建議分別使用轉移學習技術來學習跨領域的文本數據。Blitzer等人建議使用SCL來解決NLP問題。在[8]中,爲解決情緒分類問題,提出了SCL的擴展建議。Wu和Dietterich[53]建議同時使用不足的目標域數據和大量低質量的源域數據來解決圖像分類問題。Arnold等人[58]建議採用轉導遷移學習方法解決名稱實體識別問題。在 [75]、[76]、[77]、[78]、[79]中,提出了遷移學習技術,以從WiFi本地化模型中提取跨時間段、空間和移動設備的知識,爲了有助於其餘地點的WiFi定位任務。卓等人[80]研究瞭如何在自動化規劃中遷移領域知識,學習跨領域的關係行爲模型。
在[81]中,Raykar等人提出了一種新的貝葉斯多實例學習算法,該算法能夠自動識別相關特徵子集,並使用概括遷移進行學習多種、可是概念上相關的分類器,用於計算機輔助設計(CAD)。在[82]中,Ling等人提出了一種信息理論方法,用於遷移學習,以解決將網頁從英文翻譯成中文的跨語言分類問題。當有大量標有標記的英文文本數據而只有少許貼有中文文本文檔時,這種方法解決了這個問題。經過設計合適的映射函數做爲橋樑,能夠實現跨兩個特徵空間的遷移學習。
到目前爲止,至少有兩場基於遷移學習的國際比賽,提供了一些急需的公共數據。在 ECML/PKDD-2006 發現挑戰中,8 的任務是處理跨相關學習任務的個性化垃圾郵件篩選和歸納。爲了培訓垃圾郵件過濾系統,咱們須要從一組帶有相應標籤的用戶收集大量電子郵件:垃圾郵件或非垃圾郵件,並根據這些數據訓練分類器。對於新的電子郵件用戶,咱們可能但願爲用戶調整學習的模型。挑戰在於第一組用戶和新用戶的電子郵件分發狀況不一樣。所以,這個問題能夠模擬爲一個概括傳輸學習問題,其目的是使舊的垃圾郵件過濾模型適應訓練數據少、培訓時間少的新狀況。
經過ICDM-2007競賽提供了第二組數據集,其中任務是使用不一樣時間段得到的WiFi信號數據估計WiFi客戶端的室內位置[83]。因爲WiFi信號強度值多是時間、空間和設備的函數,所以不一樣時間段內WiFi數據的分佈可能會很是不一樣。所以,遷移學習必須設計爲減小數據從新標記的工做量。
用於傳輸學習的數據集。到目前爲止,已經發布了幾組數據集用於轉移學習研究。咱們分別表示文本挖掘數據集、電子郵件垃圾郵件過濾數據集、跨時間段數據集的 WiFi 本地化以及文本、電子郵件、WiFi 和 Sen 的"情緒"分類數據集。

  1. 文本。三個數據集,20個新聞組,SRAA和路透社-21578,9已經預先處理爲轉移學習設置由一些研究人員。這些數據集中的數據被分類爲層次結構。來自同一父類別下不一樣子類別的數據被視爲來自不一樣但相關的域。任務是預測父類別的標籤。
  2. 電子郵件。此數據集由 2006 年 ECML/PKDD 發現挑戰提供。
  3. WiFi。此數據集由 ICDM-2007 競賽提供。在兩個不一樣的時間段內,這些數據在145:5 37:5m2左右的建築物內收集,用於本地化。
  4. Sen. 此數據集首次在 [8]11 中使用,此數據集包含從四個產品類型(域)Amazon.com下載的產品評論:廚房、書籍、DVD 和電子。每一個域有數千條評論,但具體數量因域而異。評論包含星級(1-5 星)。

經驗評估。爲了說明與傳統學習方法相比,轉移學習方法能帶來多大的好處,研究人員使用了一些公共數據集。咱們顯示了表 5 中一些已發表的轉讓學習論文的列表。在[6],[84],[49]中,做者使用20個新聞組數據12做爲評估數據集之一。因爲不一樣研究者對算法的預處理步驟存在差別,很難直接比較所提出的方法。所以,咱們分別用20-News組一、20-News組2和20-News組3來表示它們,並在表中顯示建議的轉移學習方法和非轉移學習方法之間的比較結果。
在20個Newsgroups1數據上,Dai等人[6]展現了標準SVM與建議的TrAdaBoost算法之間的比較實驗。在 20 Newsgroups2 上,Shi 等人 [84] 應用了主動學習算法,使用 TrAdaBoost 和標準 SVM 選擇轉移學習的重要實例 (AcTraK)。Gao等人[49]在20個新聞組3上評估了他們提出的本地加權集合學習算法pLWE和LWE,與SVM和邏輯迴歸(LR)相比。此外,在表中,咱們還顯示了 [8] 中報告的情緒分類數據集的比較結果。在此數據集中,SGD 表示具備 Huber 損耗的隨機梯度級算法,SCL 表示結構對應學習算法學習的新表示法的線性預測器,SCL-MI 是 SCL 的擴展,經過應用相互用於選擇 SCL 算法的透視要素的信息。
最後,在 WiFi 本地化數據集上,咱們顯示了在 [67] 中報告的比較結果,其中基線是一個規範化的最小平方迴歸模型 (RLSR),這是一個標準迴歸模型,KPCA 表示將 RLSR 應用於新的內核原理組件分析所學數據的表示形式。比較的傳輸學習方法包括KMM和建議的算法TCA。有關實驗結果的更多詳細信息,讀者能夠參考表中的參考文獻。從這些比較結果中,咱們能夠發現,與非轉移學習方法相比,爲實際應用設計得當的轉移學習方法確實能夠顯著提升性能。
用於轉移學習的工具箱。 加州大學伯克利分校的研究人員提供了用於傳輸學習的MATLAB工具包。並且,它提供了一個標準的用於開發和測試傳輸學習新算法的平臺。
在這裏插入圖片描述

7.1遷移學習的其餘應用

  傳輸學習在連續機器學習中也有許多應用。例如,Kuhlmann 和 Stone [85] 提出了一種基於圖形的方法來識別之前遇到的遊戲,並應用此技術自動繪製值函數傳輸的域映射,並加快對之前變體的強化學習玩遊戲。翻譯學習中提出了一種在徹底不一樣的特徵空間之間傳輸的新方法,經過學習映射函數來橋接兩個徹底不一樣的域(圖像和文本)中的特徵[86]。最後,Li等人[87],[88]將遷移學習應用於協同過濾問題,以解決冷啓動和稀疏問題。在[87]中,Li等人從潛在的用戶和項目羣集變量的角度學習了一個共享評級模式混合模型,稱爲評級矩陣生成模型(RMGM)。RMGM 經過將每一個評級矩陣中的用戶和項目映射到共享的潛在用戶和項目空間來橋接來自不一樣域的多個評級矩陣,以便傳輸有用的知識。在[88]中,他們在輔助評級矩陣中對用戶和項目應用了共聚類算法。而後,他們構建了一個稱爲代碼手冊的羣集級評級矩陣。經過假設目標評級矩陣(在電影中)與輔助矩陣(在書籍上)相關,能夠經過擴展代碼手冊、完成知識轉移過程來重建目標域。

8結論

  在本綜述中,咱們回顧了遷移學習的幾種當前趨勢。遷移學習分爲三種不一樣的設置:推導遷移學習、轉導遷移學習和非監督轉移學習。前面的大多數做品都集中在前兩個分類上。無監督遷移學習未來可能會吸引愈來愈多的關注。
  此外,每種方法的遷移學習能夠基於"遷移什麼"在學習分爲四個分類。它們分別包括實例轉移方法、特徵表示遷移方法、參數遷移方法和關係知識遷移方法。前三個上下文對數據有一個\(i.i.d\). 假設,而最後一個上下文處理關係數據的遷移學習。這些方法大多假定所選源域與目標域相關。
  從此須要解決若干重要的研究問題。首先,如何避免負遷移是一個懸而未決的問題。如第 6 節所述,許多建議的遷移學習算法假定源域和目標域在某種意義上是相互關聯的。可是,若是假設不成立,則可能發生負轉移,這可能致使遷移學習的表現比根本不轉移差。所以,如何確保不發生負遷移是遷移學習中的一個關鍵問題。爲了不負轉移學習,咱們須要首先研究源域或任務與目標域或任務之間的可遷移性。而後,根據適當的可遷移性措施,咱們能夠選擇相關的源域或任務,以提取知識以學習目標任務。要定義域和任務之間的可遷移性,咱們還須要定義測量域或任務之間的類似性的標準。根據距離度量,咱們能夠對域或任務進行分組,這可能有助於測量可轉移性。一個相關的問題是,當整個域不能用於傳輸學習時,咱們是否仍然能夠轉移部分域,以便在目標域中進行有用的學習。
  此外,到目前爲止,大多數現有的遷移學習算法都側重於改進源域和目標域或任務之間不一樣分佈的通用化。在此過程當中,他們假定源域和目標域之間的特徵空間相同。可是,在許多應用程序中,咱們可能但願跨具備不一樣特徵空間的域或任務遷移知識,並從多個此類源域遷移知識。咱們將這種類型的遷移學習稱爲異構遷移學習。
  最後,到目前爲止,遷移學習技術已主要應用於種類有限的小規模應用,如基於傳感器網絡的本地化、文本分類和圖像分類問題。未來,遷移學習技術將普遍用於解決其餘具備挑戰性的應用,如視頻分類、社交網絡分析和邏輯推理。

致謝

做者感謝香港CERG項目621307的支持和NEC中國實驗室的贈款。

參考:

1.莊福振,羅平,何清,史忠植.遷移學習研究進展.軟件 學報,2015,26(1):26-39. http://www.jos.org.cn/1000-9825/4631.htm
2. 論文原文(沒想到還有彩色版的)http://citeseer.ist.psu.edu/viewdoc/download?doi=10.1.1.147.9185&rep=rep1&type=pdf
3. https://blog.csdn.net/magic_leg/article/details/73957331

相關文章
相關標籤/搜索