理解Transformers/Bert中的一些筆記

Transformers Transformers相較於LSTM的好處就是能夠將整個句子作爲input來處理,依靠attention來理解詞與詞之間的關係,但是相對應的壞處就是失去了詞的順序這個重要的信息,意思也就是input sentence的詞的順序可以隨意顛倒,也不會什麼影響,所以需要額外的將詞的positional information給嵌入(encode)到模型中。具體嵌入的方法有很多
相關文章
相關標籤/搜索