word2vec ELMO GPT Bert的繼承關係

從word2vec到ELMO到GPT在到Bert 從上圖可見,Bert 其實和 ELMO 及 GPT 存在千絲萬縷的關係,比如如果我們把 GPT 預訓練階段換成雙向語言模型,那麼就得到了 Bert;而如果我們把 ELMO 的特徵抽取器換成 Transformer,那麼我們也會得到 Bert。所以你可以看出:Bert 最關鍵兩點,一點是特徵抽取器採用 Transformer;第二點是預訓練的時候採用
相關文章
相關標籤/搜索