論文閱讀筆記：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

時間 2021-03-29

標籤 Paper BERT Transformer 語言模型 MLM 深度學習简体版

原文原文鏈接

提示：閱讀論文時進行相關思想、結構、優缺點，內容進行提煉和記錄，論文和相關引用會標明出處。文章目錄前言介紹背景知識相關工作具體實現結構 Pre-training BERT Fine-tuning BERT 實驗結果 GLUE SQuAD v1.1 SQuAD 2.0 SWAG Ablation Studies（消融研究）預訓練任務的影響模型大小的影響訓練步數的影響不同Maski

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。