在測試或者預測時,Transformer裏decoder爲什麼還需要seq mask?

  這個sublayer裏會用一個三角矩陣來做mask。在training的時候,這個mask是爲了保證causality,即把將來的數據mask掉,這都比較好理解。但是在做testing的時候,爲什麼還要繼續使用這個mask了? 如在http://nlp.seas.harvard.edu/2018/04/03/attention.html#batches-and-masking 裏 在testi
相關文章
相關標籤/搜索