transformer代碼學習

pad_attn_mask = seq_k.data.eq(0).unsqueeze(1) eq函數是留下seq_k等於0的座標,seq_k是enc_inputs feedforward層使用一維卷積,經常使用於天然語言處理 原本是 實現的是 class PoswiswFeedForwardNet(nn.Module): def init(self): super(PoswiswFeedFo
相關文章
相關標籤/搜索