遷移學習( Transfer Learning )

     在傳統的機器學習的框架下,學習的任務就是在給定充分訓練數據的基礎上來學習一個分類模型;而後利用這個學習到的模型來對測試文檔進行分類與預測。然而,咱們看到機器學習算法在當前的Web挖掘研究中存在着一個關鍵的問題:一些新出現的領域中的大量訓練數據很是可貴到。咱們看到Web應用領域的發展很是快速。大量新的領域不斷涌現,從傳統的新聞,到網頁,到圖片,再到博客、播客等等。傳統的機器學習須要對每一個領域都標定大量訓練數據,這將會耗費大量的人力與物力。而沒有大量的標註數據,會使得不少與學習相關研究與應用沒法開展。其次,傳統的機器學習假設訓練數據與測試數據服從相同的數據分佈。然而,在許多狀況下,這種同分布假設並不知足。一般可能發生的狀況如訓練數據過時。這每每須要咱們去從新標註大量的訓練數據以知足咱們訓練的須要,但標註新數據是很是昂貴的,須要大量的人力與物力。從另一個角度上看,若是咱們有了大量的、在不一樣分佈下的訓練數據,徹底丟棄這些數據也是很是浪費的。如何合理的利用這些數據就是遷移學習主要解決的問題。遷移學習能夠從現有的數據中遷移知識,用來幫助未來的學習。遷移學習(Transfer Learning)的目標是將從一個環境中學到的知識用來幫助新環境中的學習任務。所以,遷移學習不會像傳統機器學習那樣做同分布假設。算法

      咱們在遷移學習方面的工做目前能夠分爲如下三個部分:同構空間下基於實例的遷移學習,同構空間下基於特徵的遷移學習與異構空間下的遷移學習。咱們的研究指出,基於實例的遷移學習有更強的知識遷移能力,基於特徵的遷移學習具備更普遍的知識遷移能力,而異構空間的遷移具備普遍的學習與擴展能力。這幾種方法各有千秋。框架

1.同構空間下基於實例的遷移學習機器學習

      基於實例的遷移學習的基本思想是,儘管輔助訓練數據和源訓練數據或多或少會有些不一樣,可是輔助訓練數據中應該仍是會存在一部分比較適合用來訓練一個有效的分類模型,而且適應測試數據。因而,咱們的目標就是從輔助訓練數據中找出那些適合測試數據的實例,並將這些實例遷移到源訓練數據的學習中去。在基於實例的遷移學習方面,咱們推廣了傳統的AdaBoost算法,提出一種具備遷移能力的boosting算法:Tradaboosting [9],使之具備遷移學習的能力,從而可以最大限度的利用輔助訓練數據來幫助目標的分類。咱們的關鍵想法是,利用boosting的技術來過濾掉輔助數據中那些與源訓練數據最不像的數據。函數

  其中,boosting的做用是創建一種自動調整權重的機制,因而重要的輔助訓練數據的權重將會增長,不重要的輔助訓練數據的權重將會減少。調整權重以後,這些帶權重的輔助訓練數據將會做爲額外的訓練數據,與源訓練數據一塊兒歷來提升分類模型的可靠度。學習

  基於實例的遷移學習只能發生在源數據與輔助數據很是相近的狀況下。可是,當源數據和輔助數據差異比較大的時候,基於實例的遷移學習算法每每很難找到能夠遷移的知識。可是咱們發現,即使有時源數據與目標數據在實例層面上並無共享一些公共的知識,它們可能會在特徵層面上有一些交集。所以咱們研究了基於特徵的遷移學習,它討論的是如何利用特徵層面上公共的知識進行學習的問題。測試

2.同構空間下基於特徵的遷移學習優化

  在基於特徵的遷移學習研究方面,咱們提出了多種學習的算法,如CoCC算法[7],TPLSA算法[4],譜分析算法[2]與自學習算法[3]等。其中利用互聚類算法產生一個公共的特徵表示,從而幫助學習算法。咱們的基本思想是使用互聚類算法同時對源數據與輔助數據進行聚類,獲得一個共同的特徵表示,這個新的特徵表示優於只基於源數據的特徵表示。經過把源數據表示在這個新的空間裏,以實現遷移學習。應用這個思想,咱們提出了基於特徵的有監督遷移學習與基於特徵的無監督遷移學習。翻譯

2.1 基於特徵的有監督遷移學習圖片

  咱們在基於特徵的有監督遷移學習方面的工做是基於互聚類的跨領域分類[7],這個工做考慮的問題是:當給定一個新的、不一樣的領域,標註數據及其稀少時,如何利用原有領域中含有的大量標註數據進行遷移學習的問題。在基於互聚類的跨領域分類這個工做中,咱們爲跨領域分類問題定義了一個統一的信息論形式化公式,其中基於互聚類的分類問題的轉化成對目標函數的最優化問題。在咱們提出的模型中,目標函數被定義爲源數據實例,公共特徵空間與輔助數據實例間互信息的損失。文檔

2.2 基於特徵的無監督遷移學習:自學習聚類

  咱們提出的自學習聚類算法[3]屬於基於特徵的無監督遷移學習方面的工做。這裏咱們考慮的問題是:現實中可能有標記的輔助數據都難以獲得,在這種狀況下如何利用大量無標記數據輔助數據進行遷移學習的問題。自學習聚類的基本思想是經過同時對源數據與輔助數據進行聚類獲得一個共同的特徵表示,而這個新的特徵表示因爲基於大量的輔助數據,因此會優於僅基於源數據而產生的特徵表示,從而對聚類產生幫助。

  上面提出的兩種學習策略(基於特徵的有監督遷移學習與無監督遷移學習)解決的都是源數據與輔助數據在同一特徵空間內的基於特徵的遷移學習問題。當源數據與輔助數據所在的特徵空間中不一樣時,咱們還研究了跨特徵空間的基於特徵的遷移學習,它也屬於基於特徵的遷移學習的一種。

3.  異構空間下的遷移學習:翻譯學習

  咱們提出的翻譯學習[1][5]致力於解決源數據與測試數據分別屬於兩個不一樣的特徵空間下的狀況。在[1]中,咱們使用大量容易獲得的標註過文本數據去幫助僅有少許標註的圖像分類的問題,如上圖所示。咱們的方法基於使用那些用有兩個視角的數據來構建溝通兩個特徵空間的橋樑。雖然這些多視角數據可能不必定可以用來作分類用的訓練數據,可是,它們能夠用來構建翻譯器。經過這個翻譯器,咱們把近鄰算法和特徵翻譯結合在一塊兒,將輔助數據翻譯到源數據特徵空間裏去,用一個統一的語言模型進行學習與分類。

相關文章
相關標籤/搜索