深度學習self-attention流程詳解（qkv）

時間 2020-08-03

標籤深度學習 self attention 流程詳解 qkv 简体版

原文原文鏈接

一.從InputEmbedding和PositionalEnocding提及 1.將原文的全部單詞彙總統計頻率，刪除低頻詞彙（好比出現次數小於20次的統一定義爲’<UNK>’）；此時總共選出了假設10000個單詞，則用數字編號爲0~9999，一一對應，定義該對應表爲word2num；而後用xaviers方法生成隨機矩陣Matrix ：10000行N列（10000行是肯定的，對應10000個單詞，

>>阅读原文<<