摘要: 一文了解2018深度學習取得了哪些突破性進展!
在過去幾年中,深度學習改變了整我的工智能的發展。深度學習技術已經開始在醫療保健,金融,人力資源,零售,地震檢測和自動駕駛汽車等領域的應用程序中出現。至於現有的成果表現也一直在穩步提升。html
在學術層面,機器學習領域已經變得很是重要了,以致於每20分鐘就會出現一篇新的科學文章。git
在本文中,我將介紹2018年深度學習的一些主要進展,與2017年深度學習進展版本同樣,我沒有辦法進行詳盡的審查。我只想分享一些給我留下最深入印象的領域成就。github
在天然語言處理(NLP)中,語言模型是能夠估計一組語言單元(一般是單詞序列)的機率分佈的模型。在該領域有不少有趣的模型,由於它們能夠以很低的成本構建,而且顯着改進了幾個NLP任務,例如機器翻譯,語音識別和內容解析。網絡
歷史上,最著名的方法之一是基於馬爾可夫模型和n-gram。隨着深度學習的出現,出現了基於長短時間記憶網絡(LSTM)更強大的模型。雖然高效,但現有模型一般是單向的,這意味着只有單詞的上下文才會被考慮。框架
去年10月,Google AI語言團隊發表了一篇引發社區轟動的論文。BERT是一種新的雙向語言模型,它已經實現了11項複雜NLP任務的最新結果,包括情感分析、問答和複述檢測#Paraphrase_recognition)。機器學習
預訓練BERT的策略不一樣於傳統的從左到右或從右到左的選項。新穎性包括:wordpress
至於實施,Google AI開源了他們的論文代碼,該代碼基於TensorFlow。其中一些在PyTorch也能實現,例如Thomas Wolf和Junseong Kim的實現。性能
BERT對業務應用程序的影響很大,由於這種改進會影響NLP的各個方面。這能夠在機器翻譯,聊天機器人行爲,自動電子郵件響應和客戶審查分析中得到更準確的結果。學習
咱們一般習慣由圖形引擎建立的模擬器和視頻遊戲進行環境交互。雖然使人印象深入,但經典方法的成本很高,由於必須精心指定場景幾何、材料、照明和其餘參數。一個很好的問題是:是否可使用例如深度學習技術自動構建這些環境。測試
在他們的視頻到視頻合成論文中,NVIDIA的研究人員解決了這個問題。他們的目標是在源視頻和輸出視頻之間提供映射功能,精確描繪輸入內容。做者將其建模爲分佈匹配問題,其目標是使自動建立視頻的條件分佈儘量接近實際視頻的條件分佈。爲實現這一目標,他們創建了一個基於生成對抗網絡(GAN)的模型。在GAN框架內的關鍵思想是,生成器試圖產生真實的合成數據,使得鑑別器沒法區分真實數據和合成數據。他們定義了一個時空學習目標,旨在實現暫時連貫的視頻。
結果很是驚人,以下面的圖片所示:
輸入視頻位於左上象限,它是來自Cityscapes數據集的街道場景視頻的分段圖。做者將他們的結果(右下)與兩個基線進行比較:pix2pixHD(右上)和COVST(左下)。
這種方法甚至能夠用於執行將來的視頻預測。因爲NVIDIA開源vid2vid代碼(基於PyTorch),你能夠嘗試執行它。
去年,我寫了關於字嵌入在NLP中的重要性,而且相信這是一個在不久的未來會獲得更多關注的研究課題。任何使用過詞嵌入的人都知道,一旦經過組合性檢查的興奮(即King-Man+Woman=Queen)已通過去,由於在實踐中仍有一些限制。也許最重要的是對多義不敏感,沒法表徵詞之間確切創建的關係。到底同義詞Hyperonyms?另外一個限制涉及形態關係:詞嵌入模型一般沒法肯定諸如駕駛員和駕駛之類的單詞在形態上是相關的。
在題爲「深度語境化詞語表示」(被認爲是NAACL 2018年的優秀論文)的論文中,來自艾倫人工智能研究所和Paul G. Allen計算機科學與工程學院的研究人員提出了一種新的深層語境化詞彙表示方法。同時模擬單詞使用的複雜特徵(例如語法和語義)以及這些用途如何在語言環境(即多義詞)中變化。
他們的提議的中心主題,稱爲語言模型嵌入(ELMo),是使用它的整個上下文或整個句子來對每一個單詞進行矢量化。爲了實現這一目標,做者使用了深度雙向語言模型(biLM),該模型在大量文本上進行了預訓練。另外,因爲表示基於字符,所以能夠捕獲單詞之間的形態句法關係。所以,當處理訓練中未見的單詞(即詞彙外單詞)時,該模型表現得至關好。
做者代表,經過簡單地將ELMo添加到現有的最早進解決方案中,結果能夠顯著改善難以處理的NLK任務,例如文本解釋,共指解析和問答,與Google的BERT表示同樣,ELMo是該領域的重要貢獻,也有望對業務應用程序產生重大影響。
視覺任務是否相關?這是斯坦福大學和加州大學伯克利分校的研究人員在題爲「Taskonomy:Disentangling Task Transfer Learning」的論文中提出的問題,該論文得到了2018年CVPR的最佳論文獎。
能夠合理地認爲某些視覺任務之間存在某種聯繫。例如,知道表面法線能夠幫助估計圖像的深度。在這種狀況下,遷移學習技術-或重用監督學習結果的可能性將極大的提升。
做者提出了一種計算方法,經過在26個常見的視覺任務中找到轉移學習依賴關係來對該結構進行建模,包括對象識別、邊緣檢測和深度估計。輸出是用於任務轉移學習的計算分類圖。
上圖顯示了計算分類法任務發現的示例任務結構。在該示例中,該方法告知咱們若是組合了表面法線估計器和遮擋邊緣檢測器的學習特徵,則能夠用不多的標記數據快速訓練用於從新整形和點匹配的模型。
減小對標籤數據的需求是這項工做的主要關注點之一。做者代表,能夠經過粗略地減少求解一組10個任務所需的標記的數據點的總數2/3(具備獨立訓練相比),同時保持幾乎相同的性能。這是對實際用例的重要發現,所以有望對業務應用程序產生重大影響。
深度學習模型爲NLP領域作出了重大貢獻,爲一些常見任務提供了最早進的結果。可是,模型一般從頭開始訓練,這須要大量數據而且須要至關長的時間。
Howard和Ruder提出了一種概括遷移學習方法,稱爲通用語言模型微調(ULMFiT)。主要思想是微調預訓練的語言模型,以使其適應特定的NLP任務。這是一種精明的方法,使咱們可以處理咱們沒有大量數據的特定任務。
他們的方法優於六個文本分類任務的最新結果,將錯誤率下降了18-24%。關於訓練數據的數量,結果也很是驚人:只有100個標記樣本和50K未標記樣本,該方法實現了與10K標記樣本從頭開始訓練的模型相同的性能。
一樣,這些結果證實遷移學習是該領域的關鍵概念。你能夠在這裏查看他們的代碼和預訓練模型。
與去年的狀況同樣,2018年深度學習技術的使用持續增長。特別是,今年的特色是遷移學習技術愈來愈受到關注。從戰略角度來看,這多是我認爲今年最好的結果,我但願這種趨勢在未來能夠繼續下去。
我在這篇文章中沒有探討的其餘一些進展一樣引人注目。例如,強化學習的進步,例如可以擊敗Dota 2的職業玩家的驚人的OpenAI Five機器人。另外,我認爲如今球CNN,特別有效的分析球面圖像,以及PatternNet和PatternAttribution,這兩種技術所面臨的神經網絡的一個主要缺點:解釋深層網絡的能力。
上述全部技術發展對業務應用程序的影響是巨大的,由於它們影響了NLP和計算機視覺的許多領域。咱們可能會在機器翻譯、醫療診斷、聊天機器人、倉庫庫存管理、自動電子郵件響應、面部識別和客戶審查分析等方面觀察到改進的結果。
從科學的角度來看,我喜歡Gary Marcus撰寫的深度學習評論。他清楚地指出了當前深度學習方法的侷限性,並代表若是深度學習方法獲得其餘學科和技術的看法(如認知和發展心理學、符號操做和混合建模)的補充,人工智能領域將得到至關大的收益。不管你是否贊成他,我認爲值得閱讀他的論文。
本文爲雲棲社區原創內容,未經容許不得轉載。