Transformer面試總結

時間 2021-01-12

標籤 NLP知識點欄目快樂工作简体版

原文原文鏈接

1. Transformer的位置信息和bert的位置信息有什麼不一樣？ Transformer計算token的位置信息這裏使用正弦波↓，類似模擬信號傳播週期性變化。這樣的循環函數可以一定程度上增加模型的泛化能力。但BERT直接訓練一個position embedding來保留位置信息，每個位置隨機初始化一個向量，加入模型訓練，最後就得到一個包含位置信息的embedding，最後這個positi

>>阅读原文<<

相關文章

相關標籤/搜索

JavaEE-面試總結

前端面試總結

面試題總結一

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<