在最近的一項研究中,Google 的研究人員提出了「有效學習一種對令牌替換進行準確分類的編碼器」(ELECTRA),這是一種 AI 語言訓練技術,在具備相同數量的計算資源的狀況下,其性能優於現有方法。在發佈數月後的這一週,合著者發佈了 TensorFlow 的代碼庫(和預訓練的模型),爲強大的模型奠基了基礎,這些模型可以以最新的準確性執行語言任務。這些模型可能有一天會進入客戶服務聊天機器人,或者可能被合併到爲執行團隊總結報告的工具中。less
預訓練方法一般分爲兩類:語言模型(例如OpenAI的GPT),該模型從左到右處理輸入文本並根據給定的上下文預測下一個單詞;以及屏蔽語言模型(例如Google的BERT和ALBERT以及Facebook的語言模型)RoBERTa),它能夠預測輸入中被掩蓋的少許單詞的身份。屏蔽語言模型的優點在於,它們能夠「看到」要預測的令牌(即單詞)左右兩側的文本,可是它們的預測僅限於輸入令牌的一小部分,從而減小了學習量從每一個句子。工具
ELECTRA的祕密祕訣是一項稱爲替換令牌檢測的預訓練任務,它能夠在從全部輸入位置學習的同時訓練雙向模型(就像被屏蔽的語言模型同樣),就像語言模型同樣。該區分模型的任務是區分「真實」和「僞造」輸入數據。ELECTRA經過用不正確的僞造品(但有些合理的僞造品)替換某些令牌來「破壞」輸入,而後,它要求模型肯定哪些令牌已被替換或保持不變。性能
替換令牌來自另外一個稱爲生成器的AI模型。生成器能夠是在令牌上產生輸出分佈的任何模型,可是Google研究人員使用了與鑑別器一塊兒訓練的小型屏蔽語言模型。生成器和鑑別器共享相同的輸入詞嵌入。在預訓練階段以後,將生成器放下,並在各類下游任務上微調鑑別器(ELECTRA模型)。學習
該團隊報告說,在實驗中,ELECTRA比之前的方法「有了實質性的改進」,使用不到25%的計算量,其性能與RoBERTa和XLNet至關。在4天的時間裏,在單個圖形卡(計算的1/30)上訓練了一個小的ELECTRA模型以後,研究人員設法超越了GPT。藉助使用大量計算進行訓練的大型ELECTRA模型,他們在SQuAD 2.0問答數據集和GLUE語言理解任務排行榜上得到了最早進的性能。(ELECTRA在GLUE上沒有擊敗Google本身的T5-11b,但研究代表它的大小是其的1/30,並使用10%的計算進行訓練。)google
當使用少於1/4的計算量時,ELECTRA能夠在GLUE天然語言理解基準上與RoBERTa和XLNet的性能相匹配,並在SQuAD問答基準上達到最新的結果。ELECTRA的出色效率意味着即便在小規模的狀況下也能很好地運行-能夠在幾天內在單個GPU上進行訓練,其準確性要高於GPT(該模型使用30倍以上的計算能力)。ELECTRA已在TensorFlow之上做爲開源模型發佈,其中包括許多現成的預訓練語言表示模型。編碼
學生研究員Kevin Clark和Google Brain高級研究科學家Thang Luong在博客中寫道:「 ELECTRA只需不多的示例就能夠達到相同的性能,由於它每一個示例都收到模式訓練信號。」 「與此同時,RTD帶來了功能強大的表示學習,由於模型必須學習數據分佈的準確表示才能解決任務。」spa
原文連接:https://venturebeat.com/2020/...blog