在測試或者預測時，Transformer裏decoder爲什麼還需要seq mask？

時間 2021-01-05

標籤 NLP Transformer Mask 简体版

原文原文鏈接

這個sublayer裏會用一個三角矩陣來做mask。在training的時候，這個mask是爲了保證causality，即把將來的數據mask掉，這都比較好理解。但是在做testing的時候，爲什麼還要繼續使用這個mask了？如在http://nlp.seas.harvard.edu/2018/04/03/attention.html#batches-and-masking 裏在testi

>>阅读原文<<