論文閱讀筆記:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

提示:閱讀論文時進行相關思想、結構、優缺點,內容進行提煉和記錄,論文和相關引用會標明出處。 文章目錄 前言 介紹 背景知識 相關工作 具體實現結構 Pre-training BERT Fine-tuning BERT 實驗結果 GLUE SQuAD v1.1 SQuAD 2.0 SWAG Ablation Studies(消融研究) 預訓練任務的影響 模型大小的影響 訓練步數的影響 不同Maski
相關文章
相關標籤/搜索