關於ELMo的若干問題整理 & 思考

1.ELMo的基本原理是什麼? ELMO採用了典型的兩階段過程,第一個階段是利用語言模型進行預訓練;第二個階段是在做下游任務時,從預訓練網絡中提取對應單詞的網絡各層的Word Embedding作爲新特徵補充到下游任務中。 第一階段:利用語言模型進行預訓練 第一階段模型總覽: 上圖展示的是其預訓練過程,它的網絡結構採用了雙層雙向LSTM,其中單詞(token)特徵這一塊採用的是單詞的embeddi
相關文章
相關標籤/搜索