NLP入門之新聞文本分類競賽——BERT

時間 2020-12-30

標籤 competition 深度學習 python nlp 算法欄目 Python 简体版

原文原文鏈接

一、Transformer模型整體框架二、Encoder層 1、首先，self-attention會計算出三個新的向量，在論文中，向量的維度是512維，我們把這三個向量分別稱爲Query:要去查詢的、Key:等着被查的、Value:實際的特徵信息，這三個向量是用embedding向量與一個矩陣相乘得到的結果，這個矩陣是隨機初始化的，維度爲（64，512）注意第二個維度需要和embedding的維

>>阅读原文<<