【NLP理論】——爲何須要mask

1. PAD的問題 一般在訓練NLP模型時,batch中的句子長度不相等,這個時候會對沒有達到規定長度的句子會進行pad操做(通常用0進行pad),以下圖所示(綠色是進行pad的部分): 可是PAD會引發如下幾個問題。html 1.1 mean-pooling的問題 如上圖所示,對於矩陣: a = [ 3 , 7 , 11 , 2 , 1 , 8 , 5 ] a = [3, 7, 11, 2, 1
相關文章
相關標籤/搜索