Elmo/GPT/Eert/Attention/Transformer總結

    elmo、GPT、bert三者區別 它們都是基於語言模型的動態詞向量。下面從幾個方面對這三者進行對比: (1)特徵提取器:elmo採用LSTM進行提取,GPT和bert則採用Transformer進行提取。很多任務表明Transformer特徵提取能力強於LSTM,elmo採用1層靜態向量+2層LSTM,多層提取能力有限,而GPT和bert中的Transformer可採用多層,並行計算能力
相關文章
相關標籤/搜索