GPT與GPT-2

GPT與GPT-2 GPT-2與GPT一樣,都使用的是單向語言模型   一、GPT GPT的底層架構是transformer,是由pre-training和fine-tuning兩部分構成的。 如果GPT做成雙向的,那就沒Bert什麼事了(不過Bert的Masked LM和Next Sentence Prediction的思想也是功不可沒噠~)。之所以這麼說,是因爲Bert底層架構也是transf
相關文章
相關標籤/搜索