2018年AI和ML(NLP、計算機視覺、強化學習)技術總結和2019年趨勢(上)

摘要: 回顧2018,展望2019,計算機科學技術繼續前進!

一、簡介:

過去幾年一直是人工智能愛好者和機器學習專業人士最幸福的時光。由於這些技術已經發展成爲主流,而且正在影響着數百萬人的生活。各國如今都有專門的人工智能規劃和預算,以確保在這場比賽中保持優點。git

數據科學從業人員也是如此,這個領域正在發生不少事情,你必需要跑的足夠的快才能跟上時代步伐。回顧歷史,展望將來一直是咱們尋找方向的最佳方法。github

這也是我爲何想從數據科學從業者的角度退一步看一下人工智能的一些關鍵領域的發展,它們突破了什麼?2018年發生了什麼?2019年會發生什麼?算法

我將在本文中介紹天然語言處理(NLP)、計算機視覺、工具庫、強化學習、走向合乎正道的人工智能框架

二、天然語言處理(NLP)

讓機器分析單詞和句子彷佛是一個夢想,就算咱們人類有時候也很難掌握語言的細微差異,但2018年確實是NLP的分水嶺。機器學習

咱們看到了一個又一個顯著的突破:ULMFiT、ELMO、OpenAI的Transformer和Google的BERT等等。遷移學習(可以將預訓練模型應用於數據的藝術)成功應用於NLP任務,爲無限可能的應用打開了大門。讓咱們更詳細地看一下這些關鍵技術的發展。函數

ULMFiT工具

ULMFiT由Sebastian Ruder和fast.ai的Jeremy Howard設計,它是第一個在今年啓動的NLP遷移學習框架。對於沒有經驗的人來講,它表明通用語言的微調模型。Jeremy和Sebastian讓ULMFiT真正配得上Universal這個詞,該框架幾乎能夠應用於任何NLP任務!性能

想知道對於ULMFiT的最佳部分以及即將看到的後續框架嗎?事實上你不須要從頭開始訓練模型!研究人員在這方面作了不少努力,以致於你能夠學習並將其應用到本身的項目中。ULMFiT能夠應用六個文本分類任務中,並且結果要比如今最早進的方法要好。學習

你能夠閱讀Prateek Joshi關於如何開始使用ULMFiT以解決任何文本分類問題的優秀教程測試

ELMO

猜一下ELMo表明着什麼嗎?它是語言模型嵌入的簡稱,是否是頗有創意? ELMo一發布就引發了ML社區的關注。

ELMo使用語言模型來獲取每一個單詞的嵌入,同時還考慮其中單詞是否適合句子或段落的上下文。上下文是NLP的一個重要領域,大多數人之前對上下文都沒有很好的處理方法。ELMo使用雙向LSTM來建立嵌入,若是你聽不懂-請參考這篇文章,它可讓你很要的瞭解LSTM是什麼以及它們是如何工做的。

與ULMFiT同樣,ELMo顯着提升了各類NLP任務的性能,如情緒分析和問答,在這裏瞭解更多相關信息。

BERT

很多專家聲稱BERT的發佈標誌着NLP的新時代。繼ULMFiT和ELMo以後,BERT憑藉其性能真正擊敗了競爭對手。正如原論文所述,「BERT在概念上更簡單且更強大」。BERT在11個NLP任務中得到了最早進的結果,在SQuAD基準測試中查看他們的結果:

有興趣入門嗎?你可使用PyTorch實現或Google的TensorFlow代碼嘗試在本身的計算機上得出結果。

我很肯定你想知道BERT表明什麼,它其實是Transformers的雙向編碼器表示,若是你可以領悟到這些,那很不錯了。

PyText

Facebook開源了深度學習NLP框架PyText,它在不久以前發佈,但我仍然要測試它,但就早期的評論來講很是有但願。根據FB發表的研究,PyText使會話模型的準確性提升了10%,而且縮短了訓練時間。

PyText實際上落後於Facebook其餘一些產品,如FB Messenger。若是你對此有興趣。你能夠經過GitHub下載代碼來自行嘗試。

2019年NLP趨勢:

塞巴斯蒂安·羅德講述了NLP在2019年的發展方向,如下是他的想法:

  1. 預訓練的語言模型嵌入將無處不在,不使用它們的模型將是罕見的。
  2. 咱們將看到能夠編碼專門信息的預訓練模型,這些信息是對語言模型嵌入的補充。
  3. 咱們將看到有關多語言應用程序和跨語言模型的成果。特別是,在跨語言嵌入的基礎上,咱們將看到深度預訓練的跨語言表示的出現。

三、計算機視覺

這是如今深度學習中最受歡迎的領域,我以爲咱們已經徹底獲取了計算機視覺中容易實現的目標。不管是圖像仍是視頻,咱們都看到了大量的框架和庫,這使得計算機視覺任務變得垂手可得。

咱們今年在Analytics Vidhya花了不少時間研究這些概念的普通化。你能夠在這裏查看咱們的計算機視覺特定文章,涵蓋從視頻和圖像中的對象檢測到預訓練模型列表的相關文章,以開始你的深度學習之旅。

如下是我今年在CV中看到的最佳開發項目:

若是你對這個美妙的領域感到好奇,那麼請繼續使用咱們的「使用深度學習的計算機視覺」課程開始你的旅程。

BigGAN的發佈

在2014年,Ian Goodfellow設計了GAN,這個概念產生了多種多樣的應用程序。年復一年,咱們看到原始概念爲了適應實際用例正在慢慢調整,直到今年,仍然存在一個共識:機器生成的圖像至關容易被發現。

但最近幾個月,這個現象已經開始改變。或許隨着BigGAN的建立,該現象或許能夠完全消失,如下是用此方法生成的圖像:

除非你拿顯微鏡看,不然你將看不出來上面的圖片有任何問題。毫無疑問GAN正在改變咱們對數字圖像(和視頻)的感知方式。

Fast.ai的模型18分鐘內在ImageNet上被訓練

這是一個很是酷的方向:你們廣泛認爲須要大量數據以及大量計算資源來執行適當的深度學習任務,包括在ImageNet數據集上從頭開始訓練模型。我理解這種見解,大多數人都認爲在以前也是如此,但我想咱們以前均可能理解錯了。

Fast.ai的模型在18分鐘內達到了93%的準確率,他們使用的硬件48個NVIDIA V100 GPU,他們使用fastai和PyTorch庫構建了算法。

全部的這些放在一塊兒的總成本僅爲40美圓! 傑里米在這裏更詳細地描述了他們的方法,包括技術。這是屬於每一個人的勝利!

NVIDIA的vid2vid技術

在過去的4-5年裏,圖像處理已經實現了跨越式發展,但視頻呢?事實證實,將方法從靜態框架轉換爲動態框架比大多數人想象的要困難一些。你能拍攝視頻序列並預測下一幀會發生什麼嗎?答案是不能!

NVIDIA決定在今年以前開源他們的方法,他們的vid2vid方法的目標是從給定的輸入視頻學習映射函數,以產生輸出視頻,該視頻以使人難以置信的精度預測輸入視頻的內容。

你能夠在這裏的GitHub上試用他們的PyTorch實現。

2019年計算機視覺的趨勢:

就像我以前提到的那樣,在2019年可能看到是改進而不是發明。例如自動駕駛汽車、面部識別算法、虛擬現實算法優化等。就我的而言,我但願看到不少研究在實際場景中實施,像CVPR和ICML這樣的會議描繪的這個領域的最新成果,但這些項目在現實中的使用有多接近?

視覺問答和視覺對話系統最終可能很快就會如他們期盼的那樣首次亮相。雖然這些系統缺少歸納的能力,但但願咱們很快就會看到一種綜合的多模式方法。

自監督學習是今年最重要的創新,我能夠打賭明年它將會用於更多的研究。這是一個很是酷的學習線:標籤能夠直接根據咱們輸入的數據肯定,而不是浪費時間手動標記圖像。



本文做者:【方向】

閱讀原文

本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索