【nlp面試題】爲什麼Bert的三個Embedding可以進行相加?

前言 剛看到這個問題的時候有點蒙圈,三個Embedding是哪三個Embedding? 看來bert理解的還是不夠,迅速查了下資料。bert中的三個Embedding包括Position Embedding、Token Embedding、Segment Embedding。 爲何可以相加,可以從矩陣運算的數學層面解釋。大矩陣的乘法等於將矩陣切分成小的矩陣分別進行乘法,然後結果相加。 下面的圖片便
相關文章
相關標籤/搜索