Elmo/GPT/Eert/Attention/Transformer總結

時間 2021-01-12

原文原文鏈接

elmo、GPT、bert三者區別它們都是基於語言模型的動態詞向量。下面從幾個方面對這三者進行對比：（1）特徵提取器：elmo採用LSTM進行提取，GPT和bert則採用Transformer進行提取。很多任務表明Transformer特徵提取能力強於LSTM，elmo採用1層靜態向量+2層LSTM，多層提取能力有限，而GPT和bert中的Transformer可採用多層，並行計算能力