深度學習self-attention流程詳解(qkv)

一.從InputEmbedding和PositionalEnocding提及 1.將原文的全部單詞彙總統計頻率,刪除低頻詞彙(好比出現次數小於20次的統一 定義爲’<UNK>’);此時總共選出了假設10000個單詞,則用數字編號爲0~9999,一一對應,定義該對應表爲word2num;而後用xaviers方法生成隨機矩陣Matrix :10000行N列(10000行是肯定的,對應10000個單詞,
相關文章
相關標籤/搜索