爲什麼position embedding就是相加一個隨機矩陣

position embedding BERT 裏的實現: 要思考一個問題,什麼是position embedding, 就是: 如果每個position的位置用0,1,2,3,4…來表示的話, 怎樣像word embedding似的輸進模型裏呢, 就是兩種辦法: one-hot 或者 把position的0,1,2,3,4看成word id一樣用embedding_lookup表示成和word
相關文章
相關標籤/搜索