NLP入門之新聞文本分類競賽——BERT

一、Transformer模型整體框架 二、Encoder層 1、首先,self-attention會計算出三個新的向量,在論文中,向量的維度是512維,我們把這三個向量分別稱爲Query:要去查詢的、Key:等着被查的、Value:實際的特徵信息,這三個向量是用embedding向量與一個矩陣相乘得到的結果,這個矩陣是隨機初始化的,維度爲(64,512)注意第二個維度需要和embedding的維
相關文章
相關標籤/搜索