Transformer面試總結

1. Transformer的位置信息和bert的位置信息有什麼不一樣? Transformer計算token的位置信息這裏使用正弦波↓,類似模擬信號傳播週期性變化。這樣的循環函數可以一定程度上增加模型的泛化能力。 但BERT直接訓練一個position embedding來保留位置信息,每個位置隨機初始化一個向量,加入模型訓練,最後就得到一個包含位置信息的embedding,最後這個positi
相關文章
相關標籤/搜索
本站公眾號
   歡迎關注本站公眾號,獲取更多信息