摘要:最好的論文是能夠直接走出實驗室!NLP年度最佳應用論文大集錦!
可應用於實際的14個NLP突破性研究成果(三)github
論文摘要算法
對於大多數深度學習實踐者來講,序列建模與循環網絡是同義詞。然而,最近的研究結果代表,卷積架構在語音合成和機器翻譯等任務上的表現優於循環網絡。給定一個新的序列建模任務或數據集,應該使用哪一種架構?咱們對序列建模的通常卷積和循環架構進行了系統的評價。咱們在普遍的標準任務中評估這些模型。咱們的結果代表,一個簡單的卷積架構在不一樣的任務和數據集上的表現優於LSTM等典型的循環網絡。咱們的結論是,須要從新考慮序列建模和循環網絡之間的共同關聯,卷積網絡應該被視爲序列建模任務的一個天然起點咱們提供了相關代碼:http://github.com/locuslab/TCN。網絡
總結架構
本文的做者質疑了一個常見假設,即循環架構應該是序列建模任務的默認起點。他們的結果代表,時間卷積網絡(TCN)在多個序列建模任務中明顯優於長短時間記憶網絡(LSTMs)和門控循環單元網絡等典型的循環架構。ide
論文的核心思想是什麼?性能
一、時間卷積網絡(TCN)是基於最近提出的最佳實踐(如擴張卷積和殘差鏈接)設計的,它在一系列複雜的序列建模任務中表現得明顯優於通用的循環架構。學習
二、TCN表現出比循環架構更長的記憶,所以更適合須要較長的歷史記錄的任務。測試
關鍵成就是什麼?
AI社區的對其評價?
在使用RNN以前,必定要先從CNN開始。
將來的研究領域是什麼?
爲了提升TCN在不一樣序列建模任務中的性能,須要進一步精化架構和算法。
可能應用的商業領域?
§機器翻譯;
§語音識別;
§音樂和語音生成。
你在哪裏能夠獲得代碼?
一、如論文摘要所述,研究人員經過GitHub存儲庫提供了官方代碼。
二、你還能夠查看PhilippeRémy提供的Keras實施的TCN。
論文摘要
遷移學習在計算機視覺方面取得了不少成功,可是一樣的方法應用在NLP領域卻行不通。因此咱們提出了通用語言模型微調(ULMFiT),這是一種有效的轉移學習方法,能夠應用於NLP中的任何任務。該方法在6個文本分類任務上的性能明顯優於現有的文本分類方法,在大部分的數據集上測試使得錯誤率下降了18-24%。此外,僅有100個標記樣本訓練的結果也至關不錯。咱們已經開源咱們的預訓練模型和代碼。
總結
Howard和Ruder建議使用預先訓練的模型來解決各類NLP問題。使用這種方法的好處是你無需從頭開始訓練模型,只需對原始模型進行微調。通用語言模型微調(ULMFiT)的方法優於最早進的結果,它將偏差下降了18-24%。更重要的是,ULMFiT能夠只使用100個標記示例,就能與10K標記示例中從頭開始訓練的模型的性能相匹配。
論文的核心思想是什麼?
§不一樣的層應該進行不一樣程度地微調,由於它們捕獲不一樣類型的信息。
§若是學習速率首先線性增長而後線性衰減,則將模型的參數調整爲任務特定的特徵將更有效。
§微調全部層可能會致使災難性的遺忘;所以,從最後一層開始逐漸微調模型可能會更好。
關鍵成就是什麼?
AI社區對其的見解是什麼?
將來的研究領域的方向是什麼?
可能應用的商業領域?
§識別垃圾郵件、機器人、攻擊性評論;
§按特定功能對文章進行分組;
§對正面和負面評論進行分類;
§查找相關文件等
你在哪裏能夠獲得實現代碼?
Fast.ai提供ULMFiT的官方實施,用於文本分類,並做爲fast.ai庫的一部分。
論文摘要
天然語言理解包括各類各樣的任務,例如文本蘊涵、問答、語義類似性評估和文檔分類。雖然大量未標記的文本語料庫很豐富,但用於學習這些特定任務的標記數據不多。咱們證實,經過對多種未標記文本語料庫中的語言模型進行生成預訓練,而後對每項特定任務進行辨別性微調,能夠實現這些任務的巨大收益。與之前的方法相比,咱們在微調期間利用任務感知輸入轉換來實現有效傳輸,同時對模型架構進行最少的更改。咱們證實了咱們的方法在普遍的天然語言理解基準上的有效性。例如,咱們在常識推理(Stories Cloze Test)上得到8.9%的性能改善,在問答(RACE)上達到5.7%,在文本蘊涵(MultiNLI)上達到1.5%。
總結
OpenAI團隊建議經過在多種未標記文本語料庫中預先訓練語言模型,而後使用標記數據集對每一個特定任務的模型進行微調,從而能夠顯著改善了語言理解。他們還代表,使用Transformer模型而不是傳統的遞歸神經網絡能夠顯著提升模型的性能,這種方法在所研究的12項任務中有9項的表現優於以前的最佳結果。
論文的核心思想是什麼?
§預訓練模型是在連續的文本序列上訓練的,可是問題回答或文本蘊涵等任務具備結構化輸入。
§解決方案是將結構化輸入轉換爲預先訓練的模型能夠處理的有序序列。
取得了什麼關鍵成就?
AI社區對其見解是什麼?
將來的研究領域是什麼?
進一步研究天然語言理解和其餘領域的無監督學習,以便更好地理解無監督學習的時間和方式。
可能應用的商業領域?
OpenAI團隊的方法經過無監督學習加強了天然語言理解,所以能夠幫助標記數據集稀疏或不可靠的NLP應用。
在哪裏能夠獲得實現代碼?
Open AI團隊在GitHub上的公開了代碼和模型。
論文摘要
最近研究顯示從預訓練的雙向語言模型(biLM)導出的上下文詞表示爲普遍的NLP任務提供了對現有技術的改進。然而,關於這些模型如何以及爲什麼如此有效的問題,仍然存在許多問題。在本文中,咱們提出了一個詳細的實證研究,探討神經結構的選擇(例如LSTM,CNN)如何影響最終任務的準確性和所學習的表徵的定性屬性。咱們展現瞭如何在速度和準確性之間的權衡,但全部體系結構都學習了高質量的上下文表示,這些表示優於四個具備挑戰性的NLP任務的字嵌入。此外,全部架構都學習隨網絡深度而變化的表示,從基於詞嵌入層的專有形態學到基於較低上下文層的局部語法到較高範圍的語義。總之,這些結果代表,無人監督的biLM正在學習更多關於語言結構的知識。
總結
今年早些時候艾倫人工智能研究所的團隊介紹了ELMo嵌入,旨在更好地理解預訓練的語言模型表示。爲此,他們精心設計了無監督和監督任務上普遍研究學習的單詞和跨度表示。研究結果代表,獨立於體系結構的學習表示隨網絡深度而變化。
論文的核心思想是什麼?
§直接終端任務準確性;
§學習表示的定性屬性,即語境化詞表示如何編碼語法和語義的概念。
什麼是關鍵成就?
§LSTM得到最高的準確度,但也是最慢的;
§基於Transformer和CNN的模型比基於LSTM的模型快3倍,但也不太準確。
§深度biLM的詞嵌入層專一於詞形態,與傳統的詞向量造成對比,傳統的詞向量在該層也編碼一些語義信息;
§biLM的最低上下文層只關注本地語法;
AI社區對其見解是什麼?
將來的研究領域是什麼?
可能應用的商業領域?
一、經過更好地理解預訓練語言模型表示所捕獲的信息,研究人員能夠構建更復雜的模型,並加強在業務環境中應用的NLP系統的性能。
本文做者:【方向】
本文爲雲棲社區原創內容,未經容許不得轉載。