GPT-2代碼解讀[3]:Block

GPT-2代碼解讀[3]:Block Overview 模型由12個基本塊構成,每一塊由三部分構成,咱們已經考慮過和Embedding與Attention相關的部分,如今考慮最後一部分:Add&MLP。html 記Attention層的輸出爲a,塊輸入爲x。python Add&MLP層的信息流動以下:web x = x + a x=x+a x=x+aapp m = m l p ( x ) m=m
相關文章
相關標籤/搜索