【閱讀筆記】BERT 介紹和代碼解讀

最近玩了玩 BERT,做了一些實驗,感覺還挺有意思的,寫點東西記錄一下,我會從粗到細,從簡單到複雜,一層一層的說明白 BERT 的每一步。 BERT 的預訓練 BERT 模型的預訓練會從數據集抽取兩句話,其中 B 句有 50% 的概率是 A 句的下一句,然後將這兩句話轉化輸入表徵,再隨機遮掩(mask 掉)輸入序列中 15% 的詞,並要求 Transformer 完成預測這些被遮掩的詞和預測 B
相關文章
相關標籤/搜索