淺說「遷移學習」(Transfer Learning)

—— 原文發佈於本人的微信公衆號「大數據與人工智能Lab」(BigdataAILab),歡迎關注。算法

 

什麼是遷移學習?微信

遷移學習(Transfer Learning)是一種機器學習方法,是把一個領域(即源領域)的知識,遷移到另一個領域(即目標領域),使得目標領域可以取得更好的學習效果。dom

一般,源領域數據量充足,而目標領域數據量較小,這種場景就很適合作遷移學習,例如咱們咱們要對一個任務進行分類,可是此任務中數據不充足(目標域),然而卻又大量的相關的訓練數據(源域),可是此訓練數據與所需進行的分類任務中的測試數據特徵分佈不一樣(例如語音情感識別中,一種語言的語音數據充足,然而所需進行分類任務的情感數據卻極度缺少),在這種狀況下若是能夠採用合適的遷移學習方法則能夠大大提升樣本不充足任務的分類識別結果。機器學習

 

爲何如今須要遷移學習?學習

前百度首席科學家、斯坦福的教授吳恩達(Andrew Ng)在曾經說過:「遷移學習將會是繼監督學習以後的下一個機器學習商業成功的驅動力」。 測試

在本次2016年的 NIPS 會議上,吳恩達 給出了一個將來 AI方向的技術發展圖,仍是很客觀的: 大數據

毋庸置疑,監督學習是目前成熟度最高的,能夠說已經成功商用,而下一個商用的技術 將會是 遷移學習(Transfer Learning),這也是 Andrew 預測將來五年最有可能走向商用的 AI技術。編碼

吳恩達在一次採訪中,也提到遷移學習會是一個頗有活力的領域,咱們之因此對遷移學習感到興奮,其緣由在於現代深度學習的巨大價值是針對咱們擁有海量數據的問題。可是,也有不少問題領域,咱們沒有足夠數據。好比語音識別。在一些語言中,好比普通話,咱們有不少數據,可是那些只有少數人說的語言,咱們的數據就不夠龐大。因此,爲了針對數據量不那麼多的中國少數人所說的方言進行語音識別,能將從學習普通話中獲得的東西進行遷移嗎?咱們的技術確實能夠作到這一點,咱們也正在作,可是,這一領域的進步能讓人工智能有能力解決普遍得多的問題。人工智能

 

傳統的機器學習與遷移學習有什麼不一樣呢?翻譯

在機器學習的經典監督學習場景中,若是咱們要針對一些任務和域 A 訓練一個模型,咱們會假設被提供了針對同一個域和任務的標籤數據。以下圖所示,其中咱們的模型 A 在訓練數據和測試數據中的域和任務都是同樣的。 

即便是跟遷移學習比較類似的多任務學習,多任務學習是對目標域和源域進行共同窗習,而遷移學習主要是對經過對源域的學習解決目標域的識別任務。下圖就展現了傳統的機器學習方法與遷移學習的區別: 

什麼適合遷移?

在一些學習任務中有一些特徵是個體所特有的,這些特徵不能夠遷移。而有些特徵是在全部的個體中具備貢獻的,這些能夠進行遷移。

有些時候若是遷移的不合適則會致使負遷移,例如當源域和目標域的任務絕不相關時有可能會致使負遷移。

 

遷移學習的分類

根據 Sinno Jialin Pan 和 Qiang Yang 在 TKDE 2010 上的文章,可將遷移學習算法,根據所要遷移的知識表示形式(即 「what to transfer」),分爲四大類:

  • 基於實例的遷移學習(instance-based transfer learning):源領域(source domain)中的數據(data)的某一部分能夠經過reweighting的方法重用,用於target domain的學習。

  • 基於特徵表示的遷移學習(feature-representation transfer learning):經過source domain學習一個好的(good)的特徵表示,把知識經過特徵的形式進行編碼,並從suorce domain傳遞到target domain,提高target domain任務效果。

  • 基於參數的遷移學習(parameter-transfer learning):target domain和source domian的任務之間共享相同的模型參數(model parameters)或者是服從相同的先驗分佈(prior distribution)。

  • 基於關係知識遷移學習(relational-knowledge transfer learning):相關領域之間的知識遷移,假設source domain和target domain中,數據(data)之間聯繫關係是相同的。

前三類遷移學習方式都要求數據(data)獨立同分布假設。同時,四類遷移學習方式都要求選擇的sourc doma與target domain相關,

下表給出了遷移內容的遷移學習分類: 

遷移學習的應用

用於情感分類,圖像分類,命名實體識別,WiFi信號定位,自動化設計,中文到英文翻譯等問題。

 

遷移學習的價值

  • 複用現有知識域數據,已有的大量工做不至於徹底丟棄;

  • 不須要再去花費巨大代價去從新採集和標定龐大的新數據集,也有可能數據根本沒法獲取;

  • 對於快速出現的新領域,可以快速遷移和應用,體現時效性優點。

 

總結

總之,遷移學習將會成爲接下來使人興奮的研究方向,特別是許多應用須要可以將知識遷移到新的任務和域中的模型,將會成爲人工智能的又一個重要助推力。

 

歡迎關注本人的微信公衆號「大數據與人工智能Lab」(BigdataAILab),獲取更多資訊

相關文章
相關標籤/搜索