中科院莊福振:基於知識共享的機器學習算法研究及應用

本文做者:HelloDeveloper算法

嗨,你們好。這裏是學術報告專欄,讀芯術小編不按期挑選並親自跑會,爲你們奉獻科技領域最優秀的學術報告,爲同窗們記錄報告乾貨,並千方百計搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!話很少說,快快看過來,但願這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。網絡

 

 

人工智能論壇現在浩如煙海,有硬貨、有乾貨的講座卻鳳毛麟角。「AI將來說·青年學術論壇」系列講座由中國科學院大學主辦,百度全力支持,讀芯術做爲合做自媒體。承辦單位爲中國科學院大學學生會,協辦單位爲中國科學院計算所研究生會、網絡中心研究生會、人工智能學院學生會、化學工程學院學生會、公共政策與管理學院學生會、微電子學院學生會。「AI將來說·青年學術論壇」第六期「機器學習」專場已於2019年6月23日下午在中科院舉行。中科院莊福振副研究員爲你們帶來報告《基於知識共享的機器學習算法研究及應用》。機器學習

 

莊福振,副研究員、碩士生導師,中國人工智能學會機器學習專委會委員,中國計算機學會模式識別與人工智能專委會委員。2011年7月在中國科學院計算技術研究所得到博士學位,2013年9月被聘爲副研究員。主要從事機器學習和數據挖掘領域的相關研究工做,包括遷移學習、多任務學習、推薦系統等,相關研究成果已經在本領域頂級、重要國際期刊和國際會議上發表錄用論文80餘篇,其中SCI(或SCI源)30篇,CCF B類以上60多篇,獲SDM2010和CIKM2010最佳論文提名。Google Scholar總引用1600屢次,h-index 20。申請專利10項,其中受權5項,另獲軟件著做權10項。承擔和參與多項國家天然科學基金項目以及企業橫向項目,入選2015年微軟亞洲研究院青年教師「鑄星計劃」,得到201六、2019年度百度松果計劃支持。2013年得到中國人工智能學會優秀博士學位論文獎,入選2017年中國科學院青年創新促進會。性能

 

報告內容:在大數據時代,數據量呈現爆炸性增加,並且數據呈現出多源、異構、多模態、高維等特色,這給傳統機器學習算法帶來了很是大的挑戰。爲了保證訓練獲得的分類模型具備高準確性和可靠性,傳統機器學習假設用於學習的訓練樣本與新的測試樣本知足獨立同分布條件,且必須有足夠可利用的訓練樣本才能學習獲得一個好的分類模型。而在大數據環境下,標記足夠多的訓練樣本不只費時耗力並且變得不可能,另外測試數據每每來自其餘領域且具備不一樣的數據分佈,這給傳統機器學習算法研究帶來了巨大的挑戰。本次報告致力於解決機器學習算法處理數據分佈不一致、標註數據稀少的分類問題,對基於知識共享的機器學習和數據挖掘算法展開研究,旨在提升目標任務上的分類準確率。報告的主要內容包括基於知識共享的模型介紹、團隊在基於知識共享的機器學習和數據挖掘算法方面所作的研究工做及其將來方向三個部分。學習

 

基於知識共享的機器學習算法研究及應用測試

 

莊福振副研究員首先介紹了大數據的應用場景,並以大數據分類爲例講到了數據標註這一應用難點,引出了基於知識共享的四種模型,進而探討了基於知識共享模型的區別與聯繫。大數據的應用很是普遍,如:金融服務業的欺詐檢測、用戶畫像,能源與公共事業的智能電錶分析,智慧醫療的病例分析,數字媒體的實時廣告定位,以及運輸業、快遞、通信行業、司法執法、零售業等行業。在上述應用過程當中,每每存在着數據標註的難點。以大數據分類爲例,須要對大量數據進行人工標記,每每費時費力,由此想到能夠經過有標記的訓練樣原本共享知識,從而訓練獲得一個好的模型,即基於知識共享的模型。大數據

 

基於知識共享的模型能夠分爲四種基本類型:遷移學習、多任務學習、多視圖學習和模型融合。其區別是:遷移學習就是遷移知識的過程,旨在經過共享知識提高目標領域上的性能;多任務學習旨在經過共享知識提高全部任務上的整體性能;多視圖學習旨在充分利用數據多個視圖信息,在有限標記數據狀況下,提高目標數據上的性能;模型融合是經過共享多個來自單個或多個領域的模型的知識,提高目標數據上的性能。其聯繫是:遷移學習、多任務學習可用於多視圖學習;且模型融合技術能夠用於遷移學習、多任務學習、多視圖學習。網站

 

接着,分別對遷移學習、多任務學習、多視圖學習的實現過程、應用場景以及他們團隊所作的工做進行了詳細介紹。編碼

 

對於遷移學習,其產生的緣由是因爲源領域和目標領域數據的分佈不一致性。傳統監督機器學習的兩大假設是數據同源、獨立同分布和有足夠多的帶標註的訓練樣本,好比利用蘋果和香蕉的大量圖片數據進行訓練,對蘋果和香蕉的圖片進行測試,可能獲得很高的準確率。但上述假設在實際應用場景中一般不能獲得知足,不一樣領域數據之間一般是不一樣源、分佈不一致,且人工標記訓練樣本費時耗力。所以,須要一種運用已有的知識對不一樣但相關領域問題進行求解的一種新的機器學習方法,好比遷移學習,它放寬了傳統監督機器學習中兩個基本假設,只需相關但沒必要同分布,且不須要不少的帶標註訓練樣本。人工智能

 

遷移學習場景無處不在,好比:異構特徵空間的遷移學習,假設只有蘋果和香蕉的文本描述信息,如何對蘋果和香蕉圖片數據進行分類的問題;產品評論信息的預測,用與電子產品不用領域的DVD產品評論信息來預測電子產品評論信息時,準確率大大下降的問題等。標註全部領域樣本是不切實際的,所以須要遷移學習。由此,莊福振副研究員引出了他們團隊所作的三大方面的工做:基於概念學習的遷移學習算法,對網頁進行分類;基於多模型融合的遷移學習算法,包括一致性監督損失、錨點適配器集成、機率嵌入模型和基於局部嵌入模型;基於深度學習的遷移學習算法,包括一致性正則化自動編碼機、雙層(表示層+標記層)自動編碼機。

 

多任務學習是經過對多個單任務共同窗習,不一樣的任務互相共享知識,來提升學習效果。一般多任務學習是單視圖的,在多任務基礎上結合多視圖學習,則可產生多任務多視圖學習,更進一步有不一樣類別空間的多任務多視圖學習。其學習場景有不少,好比:網頁分類,多任務可表明對Yahoo網站的網頁和對DMOZ網站的網頁進行同時分類,多視圖有網頁的內容和網頁之間的連接信息;音樂分類,多任務可表明對中文歌曲進行分類和對英文歌曲進行分類,多視圖有特定視圖中文歌曲歌詞和英文歌曲歌詞以及共同視圖音頻特徵等。而後介紹了他們團隊所作的一些工做:多任務學習算法方面,包括自動編碼機+共享參數、語義學習+異構特徵空間、基於層次結構的知識圖譜嵌入和標籤敏感的多任務學習;多視圖學習算法方面,包括語義多視圖學習、共享結構多視圖學習和在線貝葉斯大間隔子空間多視圖學習等。

 

在實例方面,介紹了兩個例子:一個是IJCAI 2015數據挖掘競賽任務,另外一個是他們團隊與微軟合做,利用跨領域推薦算法對用戶行爲序列進行預測。

 

最後,莊福振副研究員探討了基於知識共享的機器學習算法研究的將來方向,包括理論分析支持、應用場景、隱私等。

原文連接地址:https://developer.baidu.com/topic/show/290396

相關文章
相關標籤/搜索