Transformer相關的各種預訓練模型優點缺點對比總結與資料收集(Transformer/Bert/Albert/RoBerta/ERNIE/XLnet/ELECTRA）

時間 2021-01-04

原文原文鏈接

文章目錄 1、Transfomer 基礎資料基本結構 single attention和 multiHead attention attention multi-head attention self-attention encoder和decoder Add & Norm Position-wise Feed-Forward Networks（Relu） Weight Tying Normal