摘要: 最好的論文是能夠直接走出實驗室!NLP年度最佳應用論文大集錦!
論文摘要github
儘管最近在訓練高質量的句子嵌入上作出了不少的努力,可是你們仍然對它們所捕捉的內容缺少了解。基於句子分類的‘Downstream’tasks一般用於評估句子表示的質量。然而任務的複雜性使得它很難推斷出句子表示中出現了什麼樣的信息。在本文將介紹10個probing tasks,旨在捕捉句子的簡單語言特徵,並用它們來研究由三種不一樣編碼器產生的句子嵌入,這些編碼器以八種不一樣的方式進行訓練,揭示了編碼器和訓練方法的有趣特性。算法
總結網絡
Facebook AI研究團隊試圖更好地理解句子嵌入所捕獲的內容。由於任務的複雜性不容許咱們直接得到理解。所以,論文介紹了10個旨在捕捉句子簡單語言特徵的探究任務。經過這些探測任務得到的結果能夠揭示編碼器和訓練方法的一些有趣特性。架構
論文的核心思想是什麼?框架
1. 表面信息(句子中的單詞數、單詞內容);性能
2. 句法信息(詞序、句子的層次結構、最高成分的順序);學習
3. 語義信息(主句動詞的時態、主語和賓語的數量、隨機替換的單詞)。測試
什麼是關鍵成就?ui
1. 因爲天然語言輸入的冗餘,Bag-of-Vectors所擅長得捕獲句子級屬性使人驚訝。
2. 類似性能的不一樣編碼器架構可致使不一樣的嵌入。
3. 卷積架構的總體探測任務性能與最佳LSTM架構的性能至關。
4. BiLSTM-max在探測任務中優於BiLSTM。此外,即便沒有通過任何訓練,它也能實現很是好的性能。
將來的研究領域是什麼?
什麼是可能的商業應用?
一、更好地理解不一樣預訓練編碼器捕獲的信息將有助於研究人員構建更多具備語言意識的編碼器。反過來,這將改善將會被應用在NLP系統中。
你在哪裏能夠獲得實現代碼?
一、GitHub上提供了本研究論文中描述的探測任務。
論文摘要
人類能夠由於一些描述從而推斷出下面要發生什麼,例如「她打開汽車的引擎蓋」,「而後,她檢查了發動機」。在本文中,咱們介紹並整理了基礎常識推理。咱們提出SWAG,一個新的數據集,包含113k多項選擇問題,涉及豐富的基礎推理。爲了解決許多現有數據集中發現的註釋工件和人類偏見的反覆出現的挑戰,咱們提出了一種新穎的過程,它經過迭代訓練一組風格分類器構建一個去偏見的數據集,並使用它們來過濾數據。爲了解釋對抗性過濾,咱們使用最早進的語言模型來大量過濾一組不一樣的潛在反事實。實證結果代表,雖然人類能夠高精度地解決由此產生的推理問題(88%),但各類競爭模型仍在努力完成咱們的任務。
總結
當你讀到「他將生雞蛋麪糊倒入鍋中時,他…」你可能會這樣選擇「提起鍋並移動它來攪拌。」咱們能夠發現,答案並不明顯,這須要常識推理。SWAG是支持研究天然語言推理(NLI)與常識推理大規模數據集。它是使用一種新穎的方法——對抗性過濾建立的,它能夠以最經濟有效的方式構建將來的大規模數據集。
論文的核心思想是什麼?
一、上下文的句子來自於視頻字幕。
二、正確的答案是實際視頻中的下一個字幕。
三、使用對抗過濾(AF)生成錯誤的答案。
一、大量生成錯誤答案,而後選擇哪些看起來像真正答案的回答。
二、過濾模型肯定哪些回答彷佛是機器生成的。這些回答被刪除並替換爲模型認爲是人爲編寫的新回答。
什麼關鍵成就?
一、句子的多樣性不受人類創造力的限制;
二、數據集建立者能夠在數據集構建期間任意提升難度;
三、人類不會寫回答但只會驗證它們,這樣更經濟;
AI社區的想法是什麼?
將來的研究領域是什麼?
什麼是可能的商業應用?
你在哪裏能夠得到實現代碼?
一、SWAG數據集可在GitHub上得到。
論文摘要
本文推出了一種新的基於深度學習框架的詞向量表徵模型,這種模型不只可以表徵詞彙的語法和語義層面的特徵,也可以隨着上下文語境的變換而改變。簡單來講,本文的模型其實本質上就是基於大規模語料訓練後的雙向語言模型內部隱狀態特徵的組合。實驗證實,新的詞向量模型可以很輕鬆的與NLP的現有主流模型相結合,而且在六大NLP任務的結果上有着巨頭的提高。同時,做者也發現對模型的預訓練是十分關鍵的,可以讓下游模型去融合不一樣類型的半監督訓練出的特徵。
總結
艾倫人工智能研究所的團隊引入了一種新型的深層語境化詞彙表示:語言模型嵌入(ELMo)。在ELMO加強模型中,每一個單詞都是根據使用它的整個上下文進行矢量化的。將ELMo添加到現有NLP系統能夠實現:
1:相對偏差減小範圍從6-20%;
2:顯著下降訓練模型所需的時期數量;
3:顯著減小達到基線性能所需的訓練數據量。
論文的核心思想是什麼?
取得了什麼關鍵成就?
AI社區對其的評價?
將來的研究領域是什麼?
一、經過將ELMos與不依賴於上下文的詞嵌入鏈接起來,將此方法合併到特定任務中。
可能的商業應用的範圍是什麼?
ELMo顯著提升了現有NLP系統的性能,從而加強了:
1. 聊天機器人將更好地理解人類和回答問題;
2. 對客戶的正面和負面評論進行分類;
3. 查找相關信息和文件等;
你在哪裏能夠獲得實現代碼?
艾倫研究所提供英語和葡萄牙語預訓練的ELMo模型,你還可使用TensorFlow代碼從新訓練模型。
論文摘要
在本文中,咱們建議擴展最近引入的模型:不可知元學習算法(MAML),用於低資源神經機器翻譯(NMT)。咱們將低資源翻譯構建爲元學習問題,而且咱們學習基於多語言高資源語言任務來適應低資源語言。咱們使用通用詞彙表示來克服不一樣語言的輸入輸出不匹配的問題。咱們使用十八種歐洲語言(Bg,Cs,Da,De,El,Es,Et,Fr,Hu,It,Lt,Nl,Pl,Pt,Sk,Sl,Sv和Ru)評估所提出的元學習策略,源任務和五種不一樣的語言(Ro,Lv,Fi,Tr和Ko)做爲目標任務。咱們證明了,所提出的方法明顯優於基於多語言遷移學習的方法,這可以使咱們只用一小部分訓練樣例來訓練有競爭力的NMT系統。例如,經過經過16000個翻譯單詞(約600個並行句子),用所提出的方法在羅馬尼亞語-英語WMT'16上實現高達22.04 BLEU。
總結
香港大學和紐約大學的研究人員使用模型無關的元學習算法(MAML)來解決低資源機器翻譯的問題。特別是,他們建議使用許多高資源語言對來查找模型的初始參數,而後,這種初始化容許僅使用幾個學習步驟在低資源語言對上訓練新的語言模型。
論文的核心思想是什麼?
關鍵成就是什麼?
一、可以在高資源和極低資源語言對之間共享信息;
二、僅使用幾千個句子來微調低資源語言對上的新翻譯模型;
一、元學習始終比多語言遷移學習好;
二、元學習驗證集語言對的選擇會影響結果模型的性能。例如,當使用羅馬尼亞語-英語進行驗證時,芬蘭語-英語受益更多,而土耳其語-英語則更喜歡拉脫維亞語-英語的驗證。
AI社區對它的見解?
將來的研究領域是什麼?
什麼是可能的商業應用?
你在哪裏能夠獲得實現代碼?
一、MetaNMT的PyTorch實施能夠在Github上找到。
本文爲雲棲社區原創內容,未經容許不得轉載。